概率论笔记
关于概率论与数理统计的笔记。
这份笔记按初学者最容易上手的顺序整理:
第一章:随机事件及其概率
第二章:一维随机变量及其分布
第三章:二维随机变量及其分布
第四章:随机变量的数字特征与极限定理
第五章:统计量与常用抽样分布
第六章:参数估计
第七章:假设检验
后面还有若干学期期末试卷试题分析。
阅读方式建议:先看“这一节先记住什么”,再看公式,最后做例题。
一、概率论底层逻辑与随机事件及其概率
这一章先记一句话:先把随机现象写成事件,再用集合关系做概率计算。
1.1 概率论研究的四层结构
概率论的核心不是"套公式",而是研究:
在随机现象中,如何用数学语言描述事件、变量、分布,以及它们之间的关系。
可以把整门课拆成四层:
第一层:事件层 — 研究"某件事发生不发生"。例如袋子里抽球,事件 A 表示"抽到红球";事件 B 表示"抽到偶数"。研究的是:A 是否发生?A 和 B 是否同时发生?A 发生时 B 的概率是多少?A、B 是否独立?对应内容:随机事件、概率、条件概率、全概率、贝叶斯、独立性。
第二层:随机变量层 — 事件太零散,所以把随机结果数值化。例如掷骰子,X 表示点数;抽产品,X 表示次品个数;测寿命,X 表示使用时间。这时研究:X 取某个值的概率?X 落在某个区间的概率?X 的分布函数?X 的密度函数?对应内容:离散/连续型随机变量、分布函数、概率密度、常见分布。
第三层:多变量关系层 — 现实中经常多个变量一起变化。例如 X 表示身高,Y 表示体重。核心问题:联合分布?边缘分布?条件分布?是否独立?Z=X+Y 的分布?对应内容:二维随机变量、联合/边缘/条件分布、独立性、函数分布。
第四层:统计推断层 — 概率论前半假设"分布已知"求概率/期望/方差,数理统计反过来:分布或参数未知,只能从样本推测总体。对应内容:样本、统计量、抽样分布、参数估计、置信区间、假设检验。
1.2 随机试验、样本空间与随机事件
先记一句话
随机试验必须满足三个条件:可以在相同条件下重复;所有可能结果事先可知;每次具体出现哪个结果不可预知。
样本空间 $\Omega$ 是所有可能结果的集合。随机事件 $A$ 是样本空间 $\Omega$ 的子集。所以事件的本质是集合,概率运算本质是集合运算。
事件之间的关系
- $A \subset B$:$A$ 发生必然导致 $B$ 发生
- $A = B$:$A$ 与 $B$ 等价
- $A \cup B$:$A$ 或 $B$ 发生(和事件)
- $A \cap B$(简写 $AB$):$A$ 与 $B$ 同时发生(积事件)
- $A - B$:$A$ 发生但 $B$ 不发生(差事件)
- $\bar{A}$:$A$ 不发生(对立事件 / 逆事件)
- $AB = \varnothing$:$A$ 与 $B$ 互不相容(互斥)
对偶律(德摩根律): $$\overline{A \cup B} = \bar{A} \cap \bar{B}, \quad \overline{A \cap B} = \bar{A} \cup \bar{B}$$
题型 1:把文字翻译成事件表达式
| 文字描述 | 事件表达式 |
|---|---|
| 至少一个发生 | $A \cup B \cup C$ |
| 都发生 | $ABC$ |
| 都不发生 | $\bar{A}\bar{B}\bar{C}$ |
| 恰有一个发生 | $A\bar{B}\bar{C} \cup \bar{A}B\bar{C} \cup \bar{A}\bar{B}C$ |
| 恰有两个发生 | $AB\bar{C} \cup A\bar{B}C \cup \bar{A}BC$ |
| 至少两个发生 | $AB\bar{C} \cup A\bar{B}C \cup \bar{A}BC \cup ABC$ |
| 至多一个发生 | $\bar{A}\bar{B}\bar{C} \cup A\bar{B}\bar{C} \cup \bar{A}B\bar{C} \cup \bar{A}\bar{B}C$ |
| 不全发生 | $\bar{A} \cup \bar{B} \cup \bar{C}$ |
| 不全不发生 | $A \cup B \cup C$ |
方法:拆关键词。
- "至少":包含更多情况
- "至多":包含更少情况
- "恰有":精确数量
- "不全":对"全"的否定
- "都不":每个都取补
最稳的方法是先列举三事件 $A,B,C$ 的 8 种状态,再勾选符合题意的状态:
$$ ABC,\ AB\bar{C},\ A\bar{B}C,\ \bar{A}BC,\ A\bar{B}\bar{C},\ \bar{A}B\bar{C},\ \bar{A}\bar{B}C,\ \bar{A}\bar{B}\bar{C} $$
1.3 概率的定义与性质
概率的公理化定义
概率 $P(\cdot)$ 是定义在事件域上的实值集合函数,满足:
- 非负性:$P(A) \geq 0$
- 规范性:$P(\Omega) = 1$
- 可列可加性:若 $A_1, A_2, \ldots$ 两两互不相容,则 $P(\bigcup_{i=1}^{\infty}A_i) = \sum_{i=1}^{\infty}P(A_i)$
基本性质
- $P(\varnothing) = 0$
- $0 \leq P(A) \leq 1$
- 若 $A \subset B$,则 $P(A) \leq P(B)$,且 $P(B-A) = P(B) - P(A)$
- $P(\bar{A}) = 1 - P(A)$
- 加法公式(两事件):$P(A \cup B) = P(A) + P(B) - P(AB)$
- 加法公式(三事件——容斥原理): $$P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC)$$
- 一般容斥公式(n 事件): $$P(\bigcup_{i=1}^{n}A_i) = \sum_{i=1}^{n}P(A_i) - \sum_{i<j}P(A_iA_j) + \sum_{i<j<k}P(A_iA_jA_k) - \cdots + (-1)^{n-1}P(A_1A_2\cdots A_n)$$
题型 2:已知 P(A)、P(B)、P(AB),求并、补、差
核心公式:
- $P(A \cup B) = P(A) + P(B) - P(AB)$
- $P(A - B) = P(A) - P(AB)$
- $P(\bar{A}B) = P(B) - P(AB)$
- $P(\bar{A} \cup \bar{B}) = 1 - P(AB)$
- $P(\bar{A}\bar{B}) = 1 - P(A \cup B)$
方法:画文氏图。将样本空间分成四块——$AB$、$A\bar{B}$、$\bar{A}B$、$\bar{A}\bar{B}$,很多题本质就是填这四块的概率。
1.4 古典概型
先记一句话
古典概型两个条件:样本点有限;每个样本点等可能。于是: $$P(A) = \frac{A \text{ 中包含的有利样本点数}}{\text{样本空间 } \Omega \text{ 中的总样本点数}}$$
常见题型:抽球、摸牌、分组、排队、生日、数字排列、骰子、产品抽检。
题型 3:抽球问题
有放回抽样:每次抽完放回,总体不变。若每次 N 种可能,抽 n 次,总样本点数 $N^n$。
无放回抽样:不考虑顺序用组合数 $C(N,n)$;考虑顺序用排列数 $A(N,n)$。
例题 3-1:袋中有 5 红 3 白共 8 个球,无放回地抽 3 个,求:(1) 恰有 2 红的概率;(2) 至少 1 红的概率。
解:(1) 总情况 $C(8,3)=56$。恰 2 红即从 5 红选 2、3 白选 1:$C(5,2)\cdot C(3,1)=10\times3=30$。$P=30/56=15/28$。 (2) 反面:全白。$C(3,3)=1$ 种。$P=1-1/56=55/56$。
题型 4:产品抽检问题
N 件产品中有 M 件次品,抽 n 件,求恰有 k 件次品的概率: $$P = \frac{C(M,k) \cdot C(N-M, n-k)}{C(N,n)}$$
这是超几何分布的雏形。
例题 4-1:一批 100 件产品中有 5 件次品,随机抽 10 件,求恰有 2 件次品的概率。
解:$P = \frac{C(5,2) \cdot C(95,8)}{C(100,10)}$。
题型 5:排列组合型概率
常见问法:排队相邻/不相邻、男女间隔、指定位置。
方法:相邻→捆绑法;不相邻→插空法;至少/至多→分类讨论或反面;顺序不重要→组合;顺序重要→排列。
例题 5-1:5 男 3 女随机排成一排,求女生全不相邻的概率。
解:总排列 $8!$。先排 5 男:$5!$,产生 6 个空位(包括两端),选 3 个放女生:$A(6,3)$。有利:$5! \times A(6,3)=120 \times 120=14400$。$P=14400/40320=5/14$。
题型 6:几何概型
当样本空间是某个几何区域且每个点等可能时: $$P(A) = \frac{A \text{ 的测度(长度/面积/体积)}}{\Omega \text{ 的测度}}$$
例题 6-1(会面问题):两人约定 12:00-13:00 之间到达某地,先到者等 15 分钟后离开,求两人能见面的概率。
解:设两人到达时刻分别为 $x, y \in [0,60]$(分钟)。能见面等价于 $|x-y| \leq 15$。样本空间为 $60\times60$ 正方形,有利区域为 $|x-y|\leq15$ 的带状区域。$P = 1 - \frac{45^2}{60^2} = 1 - \frac{9}{16} = \frac{7}{16}$。
1.5 条件概率与乘法公式
条件概率
$$P(A \mid B) = \frac{P(AB)}{P(B)}, \quad P(B) > 0$$
底层不是"B 导致 A",而是样本空间缩小了。原来的 $\Omega$ 被缩小成 $B$。
乘法公式
$$P(AB) = P(A)P(B \mid A) = P(B)P(A \mid B)$$ $$P(ABC) = P(A)P(B \mid A)P(C \mid AB)$$
一般地: $$P(A_1A_2\cdots A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\cdots P(A_n|A_1\cdots A_{n-1})$$
题型 7:连续阶段问题(路径概率)
甲箱抽球后放入乙箱,再从乙箱抽;机器先选择某种状态再产出产品;一个人先通过第一关再通过第二关——按时间顺序乘即可。
例题 7-1:甲箱有 4 红 1 白,乙箱有 3 红 2 白。从甲箱随机取一球放入乙箱,再从乙箱取一球,求从乙箱取出红球的概率。
解:设 $A$="从甲箱取红球",$B$="从乙箱取红球"。$P(A)=4/5$,$P(\bar{A})=1/5$。 若 A 发生,乙箱变 4 红 2 白:$P(B|A)=4/6=2/3$。 若 A 不发生,乙箱变 3 红 3 白:$P(B|\bar{A})=3/6=1/2$。 $P(B)=P(A)P(B|A)+P(\bar{A})P(B|\bar{A})=\frac{4}{5}\times\frac{2}{3}+\frac{1}{5}\times\frac{1}{2}=\frac{8}{15}+\frac{1}{10}=\frac{19}{30}$。
1.6 全概率公式与贝叶斯公式
全概率公式
若 $B_1, B_2, \ldots, B_n$ 构成 $\Omega$ 的完备事件组(互不相容、并集为 $\Omega$、每个 $P(B_i)>0$),则: $$P(A) = \sum_{i=1}^{n} P(B_i) P(A \mid B_i)$$
底层逻辑:A 可以通过不同路径发生,分路径求总概率。
贝叶斯公式
$$P(B_j \mid A) = \frac{P(B_j)P(A \mid B_j)}{\sum_{i=1}^{n} P(B_i)P(A \mid B_i)}$$
底层逻辑:全概率是"原因→结果",贝叶斯是"结果→反推原因"。$P(B_j)$ 是先验概率,$P(B_j|A)$ 是后验概率。
题型 8:来源反推题
例题 8-1:某产品由甲、乙、丙三厂供应,占比分别为 50%、30%、20%。次品率分别为 2%、3%、4%。现随机抽一件发现是次品,求它来自甲厂的概率。
解:设 $B_1,B_2,B_3$ 分别表示来自甲、乙、丙,$A$ 表示抽到次品。 $$\begin{aligned}P(A) &= 0.5\times0.02 + 0.3\times0.03 + 0.2\times0.04 \ &= 0.01 + 0.009 + 0.008 = 0.027\end{aligned}$$ $$P(B_1\mid A) = \frac{0.5\times0.02}{0.027} = \frac{0.01}{0.027} \approx 0.370$$
题型 9:医疗检测题(假阳性陷阱)
例题 9-1:某病患病率 0.1%,检测准确率 99%(患者阳性率 99%,健康人阴性率 99%)。某人检测阳性,求他真的患病的概率。
解:$B$=患病,$\bar{B}$=不患病,$A$=检测阳性。 $P(B)=0.001$,$P(\bar{B})=0.999$,$P(A|B)=0.99$,$P(A|\bar{B})=0.01$。 $$\begin{aligned}P(A) &= 0.001\times0.99 + 0.999\times0.01 \ &= 0.00099 + 0.00999 = 0.01098\end{aligned}$$ $$P(B\mid A) = \frac{0.001\times0.99}{0.01098} \approx 0.0902$$ 只有约 9%!这就是假阳性的力量——虽然检测很准,但因为患病率极低,阳性结果中大部分其实是假阳性。
1.7 事件独立性
定义
$A$ 与 $B$ 独立 $\iff P(AB) = P(A)P(B)$。等价地($P(B)>0$ 时):$P(A \mid B) = P(A)$。
含义:B 发生与否,不改变 A 的概率。
多个事件的独立性
$A,B,C$ 两两独立:$P(AB)=P(A)P(B)$,$P(AC)=P(A)P(C)$,$P(BC)=P(B)P(C)$。
$A,B,C$ 相互独立:满足两两独立,且 $P(ABC)=P(A)P(B)P(C)$。
注意:两两独立不一定相互独立。
反例:掷两颗均匀骰子。 设 $A$="第一颗出偶数",$B$="第二颗出偶数",$C$="两颗点数之和为奇数"。
可以验证: $$ P(A)=P(B)=P(C)=\frac{1}{2} $$ $$ P(AB)=P(AC)=P(BC)=\frac{1}{4} $$ 因而两两独立。
但 $$ P(ABC)=0 \ne P(A)P(B)P(C)=\frac{1}{8} $$ 所以 $A,B,C$ 两两独立,但不相互独立。
互不相容 vs 独立
- 互不相容:$AB=\varnothing$(不能同时发生)
- 独立:$P(AB)=P(A)P(B)$(互不影响)
若 $A,B$ 互不相容且 $P(A),P(B)$ 均大于 0,则一定不独立(因为一个发生意味着另一个必不发生)。
独立性的性质
若 $A$ 与 $B$ 独立,则 $A$ 与 $\bar{B}$、$\bar{A}$ 与 $B$、$\bar{A}$ 与 $\bar{B}$ 均独立。
题型 10:利用独立性求概率
例题 10-1:三个元件独立工作,每个正常工作的概率为 0.9。求:(1) 三个都正常的概率;(2) 至少一个正常的概率。
解:(1) $0.9^3=0.729$。(2) 反面:全不正常 $0.1^3=0.001$,$P=1-0.001=0.999$。
二、一维随机变量及其分布
这一章先记一句话:把“会不会发生”升级成“取什么数、落在哪个区间”。
2.1 随机变量与分布函数
随机变量的本质
随机变量是把随机试验的结果映射成实数的函数。
例如掷硬币:正面→1,反面→0。这个 $X$ 就是随机变量。它的意义是把"事件问题"变成"数值问题"。
按取值类型分为:
- 离散型:取有限个或可列无限个值。像数人数、数次品、数电话呼入次数。
- 连续型:取某个区间内的一切实数值。像测寿命、测身高、等车时间。
- 混合型:离散和连续混在一起,考试较少涉及。
这里最容易卡住的是:随机变量不是“变量会随机乱变”,而是你给随机结果贴上的数字标签。原来样本空间里可能写着“红球、白球、蓝球”,不方便算;贴成 $X=1,2,3$ 后,就能用函数、积分和分布来处理。
分布函数
$$F(x) = P(X \leq x), \quad x \in \mathbb{R}$$
性质:
- $F(x)$ 单调不减
- $0 \leq F(x) \leq 1$,且 $F(-\infty)=0$,$F(+\infty)=1$
- $F(x)$ 右连续:$F(x+0)=F(x)$
- $P(a < X \leq b) = F(b) - F(a)$
- $P(X = a) = F(a) - F(a-0)$(即 $F$ 在 $a$ 处的跳跃度)
分布函数是随机变量最完整的描述。知道 $F(x)$ 就知道 $X$ 落在任意区间的概率。
可以把 $F(x)$ 想象成一把从左往右推的扫帚:扫到位置 $x$ 时,左边已经被扫进去的概率总量就是 $P(X\leq x)$。离散型是一格一格跳着增加,连续型是平滑地一点点增加。
题型 11:判断某函数是否为分布函数
检查四条:单调不减;右连续;$F(-\infty)=0$,$F(+\infty)=1$;取值在 $[0,1]$。分段函数要特别检查分界点处。
2.2 离散型随机变量
分布律(概率质量函数)
$X$ 取 $x_1, x_2, \ldots$,对应概率 $P(X=x_i)=p_i$。要求:$p_i \geq 0$,$\sum p_i = 1$。
由分布律求分布函数
设 $x_1 < x_2 < \cdots < x_n$,概率 $p_1, p_2, \ldots, p_n$,则: $$F(x) = \begin{cases} 0, & x < x_1 \ p_1, & x_1 \leq x < x_2 \ p_1+p_2, & x_2 \leq x < x_3 \ \cdots & \cdots \ 1, & x \geq x_n \end{cases}$$
分布函数呈阶梯形,在每个取值点发生跳跃,跳跃高度就是该点的概率。
2.3 常见离散分布
- (1) 两点分布 / 0-1 分布 $B(1,p)$
$$P(X=1)=p,\quad P(X=0)=1-p$$ $$E(X)=p,\quad D(X)=p(1-p)$$
应用:一次试验成功/失败、产品合格/不合格、事件发生/不发生。
它是最小的随机变量模型:世界只剩两个出口,成功记 1,失败记 0。后面的二项分布其实就是把这个小开关重复按很多次。
- (2) 二项分布 $B(n,p)$
$n$ 次独立重复试验,每次成功概率 $p$,$X$ 表示成功次数。
这类题的直觉是:做 $n$ 次完全同样的试验,每次只有成败两个结果,最后数一共成功了几次。公式里的 $C(n,k)$ 负责选出“哪 $k$ 次成功”,$p^k(1-p)^{n-k}$ 负责这一种具体排列的概率。
$$P(X=k) = C(n,k) , p^k (1-p)^{n-k}, \quad k=0,1,\ldots,n$$ $$E(X)=np,\quad D(X)=np(1-p)$$
可加性:若 $X\sim B(n_1,p)$,$Y\sim B(n_2,p)$ 且独立,则 $X+Y\sim B(n_1+n_2,p)$。
例题 2-1:某射手命中率 0.8,独立射击 5 次。求:(1) 恰命中 4 次的概率;(2) 至少命中 3 次的概率。
解:(1) $C(5,4)\times0.8^4\times0.2=5\times0.4096\times0.2=0.4096$。 (2) $$ \begin{aligned} P(X\geq 3) &=P(X=3)+P(X=4)+P(X=5) \ &=C(5,3)\times0.8^3\times0.2^2+0.4096+0.8^5 \ &=10\times0.512\times0.04+0.4096+0.32768 \ &=0.2048+0.4096+0.32768=0.94208 \end{aligned} $$
- (3) 泊松分布 $P(\lambda)$
$$P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k=0,1,2,\ldots$$ $$E(X)=\lambda,\quad D(X)=\lambda$$
应用:单位时间内电话呼入次数、单位面积缺陷数、稀有事件计数。
泊松分布像在一条时间线上数“随机掉下来的点”。你不关心哪一秒掉,只关心这一分钟总共掉了几个。它适合描述次数,而且通常是大量机会中小概率发生的事。
泊松定理(二项分布的泊松近似):若 $n\to\infty$,$p\to0$ 且 $np=\lambda$ 恒定,则 $B(n,p) \approx P(\lambda)$。实际中 $n\geq 20$,$p\leq 0.05$(或 $n\geq 100$,$np\leq 10$)时近似效果很好。
可加性:若 $X\sim P(\lambda_1)$,$Y\sim P(\lambda_2)$ 且独立,则 $X+Y\sim P(\lambda_1+\lambda_2)$。
例题 2-2:某电话交换台平均每分钟接到 2 次呼叫。求一分钟内:(1) 恰好 0 次的概率;(2) 至少 3 次的概率。
解:$X\sim P(2)$。(1) $P(X=0)=e^{-2}\approx0.1353$。 (2) $P(X\geq 3)=1-P(X=0)-P(X=1)-P(X=2)=1-e^{-2}-2e^{-2}-2e^{-2}=1-5e^{-2}\approx0.3233$。
- (4) 超几何分布 $H(N,M,n)$
$N$ 个总体含 $M$ 个成功对象,不放回抽 $n$ 个,$X$ 表示成功个数。
超几何分布和二项分布最关键的差别是:抽走一个就少一个。袋子里的结构会变,所以每次试验不再完全独立。凡是题目出现“不放回”“有限总体抽样”,脑子里先亮起超几何。
$$P(X=k) = \frac{C(M,k),C(N-M,n-k)}{C(N,n)}, \quad k=\max(0,n+M-N),\ldots,\min(n,M)$$ $$E(X)=n\cdot\frac{M}{N},\quad D(X)=n\cdot\frac{M}{N}\cdot\frac{N-M}{N}\cdot\frac{N-n}{N-1}$$
与二项分布区别:有放回/独立重复→二项;无放回/总体有限→超几何。当 $N$ 很大而 $n/N$ 很小时,超几何近似为二项。
- (5) 几何分布 $Ge(p)$
独立重复试验,每次成功概率 $p$,$X$ 表示首次成功所需的试验次数。
$$P(X=k) = (1-p)^{k-1}p, \quad k=1,2,\ldots$$ $$E(X)=\frac{1}{p},\quad D(X)=\frac{1-p}{p^2}$$
无记忆性:$P(X > m+n \mid X > m) = P(X > n)$。
几何分布数的是“第一次成功前等了多久”。它像一直刷卡进门:前面失败多少次,不会改变下一次刷成功的概率,所以才有无记忆性。
例题 2-3:某射手命中率 0.3,求他首次命中发生在第 4 次射击的概率。
解:$P(X=4)=(1-0.3)^3\times0.3=0.7^3\times0.3=0.1029$。
2.4 连续型随机变量
概率密度函数
若存在非负函数 $f(x)$ 使得 $F(x)=\int_{-\infty}^{x}f(t)dt$,则 $X$ 为连续型,$f(x)$ 为密度函数。
性质:
- $f(x) \geq 0$
- $\int_{-\infty}^{+\infty}f(x)dx = 1$
- $P(a < X \leq b) = \int_a^b f(x)dx$
- $P(X=a)=0$(单点概率为 0)
- 在 $f(x)$ 的连续点处:$F'(x)=f(x)$
关键认知:密度 $f(x)$ 不是概率,积分才是概率。$f(x)$ 可以大于 1(只要积分=1 即可)。
连续型随机变量里,单独一个点薄得没有面积,所以 $P(X=a)=0$。真正有概率的是一段区间,像看地图上某条带状区域的面积,而不是盯着一根没有宽度的线。
题型 12:由密度求参数、概率、分布函数
例题 2-4:设 $X$ 的密度为
$$ f(x)= \begin{cases} cx^2, & 0 < x < 1,\\ 0, & \text{其他}. \end{cases} $$
求:(1) $c$;(2) $P(0.3<X<0.7)$;(3) $F(x)$。
解:
$$ \int_0^1 cx^2 dx = c\cdot\frac{1}{3}=1 \implies c=3. $$
$$ P(0.3<X<0.7)=\int_{0.3}^{0.7}3x^2 dx=[x^3]_{0.3}^{0.7}=0.343-0.027=0.316. $$
$$ F(x)= \begin{cases} 0, & x<0,\\ x^3, & 0\leq x<1,\\ 1, & x\geq1. \end{cases} $$
2.5 常见连续分布
- (1) 均匀分布 $U(a,b)$
$$ f(x)=\frac{1}{b-a},\quad a<x<b; \qquad F(x)= \begin{cases} 0, & x<a,\\ \frac{x-a}{b-a}, & a\leq x<b,\\ 1, & x\geq b. \end{cases} $$ $$E(X)=\frac{a+b}{2},\quad D(X)=\frac{(b-a)^2}{12}$$
例题 2-5:$X\sim U(0,10)$,求 $P(3<X<7)$ 和 $P(|X-5|>2)$。
解:$P(3<X<7)=\frac{7-3}{10}=0.4$。$P(|X-5|>2)=P(X<3 \text{ 或 } X>7)=\frac{3}{10}+\frac{3}{10}=0.6$。
- (2) 指数分布 $Exp(\lambda)$
$$f(x)=\lambda e^{-\lambda x},; x>0; \quad F(x)=1-e^{-\lambda x},; x>0$$ $$E(X)=\frac{1}{\lambda},\quad D(X)=\frac{1}{\lambda^2}$$
应用:等待时间、寿命、事件间隔。
无记忆性:$P(X>s+t\mid X>s)=P(X>t)$——已经等了 $s$ 时间后,还需等 $t$ 时间的概率与已等时长无关。在连续分布中,指数分布是唯一具有无记忆性的分布。
指数分布可以理解成连续版的“等第一次成功”。比如等下一通电话、等下一次故障。它不问你已经等了多久,只问从现在重新开始还要等多久。
例题 2-6:某电子元件寿命 $X\sim Exp(1/1000)$(平均寿命 1000h)。求:(1) 寿命超过 1000h 的概率;(2) 已知已工作 1000h,再工作 1000h 的概率。
解:(1) $P(X>1000)=e^{-1000/1000}=e^{-1}\approx0.3679$。 (2) 由无记忆性:$P(X>2000\mid X>1000)=P(X>1000)=e^{-1}\approx0.3679$。
- (3) 正态分布 $N(\mu,\sigma^2)$
$$f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp!\left[-\frac{(x-\mu)^2}{2\sigma^2}\right],\quad x\in\mathbb{R}$$ $$E(X)=\mu,\quad D(X)=\sigma^2$$
标准正态分布 $N(0,1)$:密度 $\phi(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}$,分布函数 $\Phi(x)$。
标准正态化:若 $X\sim N(\mu,\sigma^2)$,则 $Z=\frac{X-\mu}{\sigma}\sim N(0,1)$。
正态概率计算三步:标准化→查表→做差(或和)。
正态分布的核心动作是“搬到标准尺上”。不同题里的平均值和波动尺度不一样,但经过 $Z=\frac{X-\mu}{\sigma}$ 标准化后,都变成同一张标准正态表。查表不是另一个知识点,而是把各种正态题统一到同一把尺子上。
例题 2-7:$X\sim N(70,10^2)$,求 $P(60<X<85)$。
解:$Z_1=\frac{60-70}{10}=-1$,$Z_2=\frac{85-70}{10}=1.5$。 $P(60<X<85)=\Phi(1.5)-\Phi(-1)=\Phi(1.5)-(1-\Phi(1))$。 查表 $\Phi(1.5)\approx0.9332$,$\Phi(1)\approx0.8413$。 $P=0.9332-(1-0.8413)=0.9332-0.1587=0.7745$。
正态分布的重要性质:
线性性:若 $X\sim N(\mu,\sigma^2)$,则 $aX+b\sim N(a\mu+b,;a^2\sigma^2)$
可加性:若 $X\sim N(\mu_1,\sigma_1^2)$,$Y\sim N(\mu_2,\sigma_2^2)$ 且独立,则 $X+Y\sim N(\mu_1+\mu_2,;\sigma_1^2+\sigma_2^2)$
$3\sigma$ 原则:$P(|X-\mu|<3\sigma)\approx 0.9973$
(4) $\Gamma$ 分布(补充)
指数分布是 $\Gamma$ 分布的特例。若 $X\sim \Gamma(\alpha,\lambda)$: $$f(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},; x>0,;\alpha>0,;\lambda>0$$ $$E(X)=\frac{\alpha}{\lambda},\quad D(X)=\frac{\alpha}{\lambda^2}$$
当 $\alpha=1$ 时退化为指数分布;当 $\alpha=n/2,\lambda=1/2$ 时退化为 $\chi^2(n)$。
2.6 随机变量函数的分布
离散型函数
若 $Y=g(X)$,$X$ 离散,方法:列出 $X$ 所有取值→计算对应 $Y$→合并相同 $Y$ 的概率。
核心:函数映射可能多对一,要合并概率。
例题 2-8:$X$ 取 $-2,-1,0,1,2$ 各概率 0.2。求 $Y=X^2$ 的分布律。
解:$Y$ 取 $0,1,4$。$P(Y=0)=P(X=0)=0.2$;$P(Y=1)=P(X=-1)+P(X=1)=0.4$;$P(Y=4)=P(X=-2)+P(X=2)=0.4$。
连续型函数——分布函数法
求 $Y=g(X)$ 的分布,用分布函数法(万能方法):
- $F_Y(y)=P(Y\leq y)=P(g(X)\leq y)$
- 将不等式 $g(X)\leq y$ 转化为关于 $X$ 的区间
- 代入 $F_X$ 或积分
- 对 $y$ 求导得 $f_Y(y)$
例题 2-9:$X\sim U(0,1)$,$Y=-2\ln X$,求 $Y$ 的分布。
解:$F_Y(y)=P(-2\ln X\leq y)=P(\ln X\geq -y/2)=P(X\geq e^{-y/2})=1-e^{-y/2}$($y>0$)。 $f_Y(y)=F_Y'(y)=\frac{1}{2}e^{-y/2}$($y>0$),即 $Y\sim Exp(1/2)$。
线性变换:$Y=aX+b$,若 $a>0$,$f_Y(y)=\frac{1}{|a|}f_X(\frac{y-b}{a})$。特别地,$f_Y(y)=\frac{1}{|a|}f_X(\frac{y-b}{a})$ 对 $a\neq 0$ 均成立。
三、二维随机变量及其分布
这一章先记一句话:两个变量一起看,核心是“联合、边缘、条件、独立”。
3.1 联合分布函数
$$F(x,y)=P(X\leq x,; Y\leq y)$$
描述 $(X,Y)$ 同时落在左下角区域 $(-\infty,x]\times(-\infty,y]$ 的概率。
性质:
- $F(-\infty,y)=F(x,-\infty)=0$,$F(+\infty,+\infty)=1$
- $F(x,y)$ 对每个变量单调不减且右连续
- 矩形概率:$P(a<X\leq b,;c<Y\leq d)=F(b,d)-F(a,d)-F(b,c)+F(a,c)$
3.2 二维离散型随机变量
联合分布律
$$P(X=x_i,; Y=y_j)=p_{ij}, \quad p_{ij}\geq 0,; \sum_i\sum_j p_{ij}=1$$
边缘分布
$$P(X=x_i)=\sum_j p_{ij}=p_{i\cdot} \quad (\text{行和})$$ $$P(Y=y_j)=\sum_i p_{ij}=p_{\cdot j} \quad (\text{列和})$$
条件分布
$$P(X=x_i\mid Y=y_j)=\frac{p_{ij}}{p_{\cdot j}},\quad P(Y=y_j\mid X=x_i)=\frac{p_{ij}}{p_{i\cdot}}$$
独立性判定
$X$ 与 $Y$ 独立 $\iff$ 对所有 $i,j$ 有 $p_{ij}=p_{i\cdot}\cdot p_{\cdot j}$。只要有一个格子不满足,就不独立。
例题 3-1:已知 $(X,Y)$ 联合分布律如下,判断 $X,Y$ 是否独立。
| X\Y | 0 | 1 |
|---|---|---|
| 0 | 0.3 | 0.2 |
| 1 | 0.2 | 0.3 |
解:边缘:$P(X=0)=0.5$,$P(X=1)=0.5$;$P(Y=0)=0.5$,$P(Y=1)=0.5$。 检查:$p_{00}=0.3$ vs $0.5\times0.5=0.25$,不等。故 $X,Y$ 不独立。
3.3 二维连续型随机变量
联合密度
$f(x,y)\geq 0$,$\iint_{\mathbb{R}^2}f(x,y)dxdy=1$。区域概率: $$P((X,Y)\in D)=\iint_D f(x,y)dxdy$$
边缘密度
$$f_X(x)=\int_{-\infty}^{+\infty}f(x,y)dy,\quad f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)dx$$
条件密度
$$f_{Y\mid X}(y\mid x)=\frac{f(x,y)}{f_X(x)},\quad f_{X\mid Y}(x\mid y)=\frac{f(x,y)}{f_Y(y)}$$
独立性判定
$X$ 与 $Y$ 独立 $\iff$ 对所有 $x,y$ 有 $f(x,y)=f_X(x)f_Y(y)$。
快速判断技巧:
- 联合密度的有效区域是矩形且 $f(x,y)$ 可拆成 $g(x)h(y)$ → 通常独立
- 有效区域不是矩形(如 $0<x<y<1$)→ 通常不独立
- 最终以定义为准
例题 3-2:$(X,Y)$ 的联合密度 $f(x,y)=2e^{-x}e^{-2y}$($x>0,y>0$),其余为 0。判断 $X,Y$ 是否独立。
解:$f_X(x)=\int_0^\infty 2e^{-x}e^{-2y}dy=2e^{-x}\cdot[-\frac{1}{2}e^{-2y}]_0^\infty=e^{-x}$($x>0$)。 $f_Y(y)=\int_0^\infty 2e^{-x}e^{-2y}dx=2e^{-2y}\cdot[-e^{-x}]_0^\infty=2e^{-2y}$($y>0$)。 $f_X(x)f_Y(y)=e^{-x}\cdot2e^{-2y}=2e^{-x}e^{-2y}=f(x,y)$,故 $X,Y$ 独立。
例题 3-3:$(X,Y)$ 在区域 $D={0<x<1,;0<y<x}$ 上均匀分布(即 $f(x,y)=c$)。求:(1) $c$;(2) 边缘密度;(3) $P(Y<1/2)$。
解:(1) $D$ 是三角形,面积 $=1/2$,$c\cdot\frac{1}{2}=1 \implies c=2$。 (2) $f_X(x)=\int_0^x 2dy=2x$($0<x<1$);$f_Y(y)=\int_y^1 2dx=2(1-y)$($0<y<1$)。 (3) $P(Y<1/2)=\int_0^{1/2}f_Y(y)dy=\int_0^{1/2}2(1-y)dy=[2y-y^2]_0^{1/2}=1-0.25=0.75$。
3.4 二维随机变量函数的分布
- 离散型:$Z=g(X,Y)$
枚举所有 $(x_i,y_j)$→计算 $z=g(x_i,y_j)$→合并相同 $z$ 的概率。
连续型:和的分布(卷积公式)
若 $X,Y$ 独立,$Z=X+Y$: $$f_Z(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx=\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)dy$$
例题 3-4:$X\sim U(0,1)$,$Y\sim U(0,1)$ 独立,求 $Z=X+Y$ 的密度。
解:
$$ f_Z(z)=\int_{\max(0,z-1)}^{\min(1,z)}1\cdot1\,dx. $$
结果为三角形分布:
$$ f_Z(z)= \begin{cases} z, & 0<z\leq1,\\ 2-z, & 1<z<2,\\ 0, & \text{其他}. \end{cases} $$
最大值与最小值
设 $X_1,\ldots,X_n$ 独立同分布,分布函数 $F(x)$。
- 最大值 $M=\max(X_1,\ldots,X_n)$:$F_M(x)=[F(x)]^n$
- 最小值 $m=\min(X_1,\ldots,X_n)$:$F_m(x)=1-[1-F(x)]^n$
例题 3-5:5 个独立同分布元件,每个寿命 $X_i\sim Exp(\lambda)$。求串联(min)和并联(max)系统的寿命分布。
解:$F(x)=1-e^{-\lambda x}$($x>0$)。 串联(min):$F_m(x)=1-[e^{-\lambda x}]^5=1-e^{-5\lambda x}$,即 $m\sim Exp(5\lambda)$,平均寿命 $\frac{1}{5\lambda}$。 并联(max):$F_M(x)=[1-e^{-\lambda x}]^5$。平均寿命比单个元件长。
商的分布与瑞利分布(补充)
若 $X,Y$ 独立同分布 $N(0,\sigma^2)$,则 $R=\sqrt{X^2+Y^2}$ 服从 Rayleigh 分布(瑞利分布): $$f_R(r)=\frac{r}{\sigma^2}e^{-r^2/(2\sigma^2)},; r>0$$
四、随机变量的数字特征与极限定理
这一章先记一句话:分布太复杂时,用期望和方差抓住平均水平与波动大小。
4.1 数学期望
定义
- 离散型:$E(X)=\sum x_i p_i$
- 连续型:$E(X)=\int_{-\infty}^{+\infty}x f(x)dx$
底层:期望是概率加权平均,是长期平均而非"一定取到的值"。
随机变量函数的期望(无需先求分布!)
- 一维:$E[g(X)]=\begin{cases}\sum g(x_i)p_i &\text{离散}\\int g(x)f(x)dx &\text{连续}\end{cases}$
- 二维:$E[g(X,Y)]=\begin{cases}\sum\sum g(x_i,y_j)p_{ij} &\text{离散}\\iint g(x,y)f(x,y)dxdy &\text{连续}\end{cases}$
期望的性质
- $E(C)=C$
- $E(aX+b)=aE(X)+b$
- $E(X+Y)=E(X)+E(Y)$(无条件成立)
- $E(XY)=E(X)E(Y)$(需要 $X,Y$ 独立,或至少不相关)
例题 4-1:$X$ 的密度为
$$ f(x)= \begin{cases} 2x, & 0 < x < 1,\\ 0, & \text{其他}. \end{cases} $$
求 $E(X)$ 和 $E(3X^2+1)$。
解:
$$ E(X)=\int_0^1 x\cdot2x dx=\int_0^1 2x^2 dx=\frac{2}{3}. $$
$$ E(3X^2+1)=\int_0^1 (3x^2+1)\cdot2x dx =\int_0^1(6x^3+2x) dx =\left[\frac{6}{4}x^4+x^2\right]_0^1 =1.5+1=2.5. $$
4.2 方差
定义与公式
$$D(X)=E[(X-E(X))^2]=E(X^2)-[E(X)]^2$$
优先用 $E(X^2)-[E(X)]^2$,比定义式简单。
方差的性质
- $D(C)=0$
- $D(aX+b)=a^2D(X)$(平移 $b$ 不影响波动)
- 若 $X,Y$ 独立:$D(X\pm Y)=D(X)+D(Y)$(注意:独立时,差也是加!)
- 一般情况:$D(X\pm Y)=D(X)+D(Y)\pm 2Cov(X,Y)$
标准化变量:
$$ X^{\ast}=\frac{X-E(X)}{\sqrt{D(X)}},\quad E(X^{\ast})=0,\quad D(X^{\ast})=1. $$
矩
- $k$ 阶原点矩:$E(X^k)$
- $k$ 阶中心矩:$E[(X-E(X))^k]$
- 期望是一阶原点矩,方差是二阶中心矩。
4.3 协方差与相关系数
协方差
$$Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)$$
性质:
- $Cov(X,X)=D(X)$
- $Cov(aX+b,;cY+d)=ac,Cov(X,Y)$
- $Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)$
- 若 $X,Y$ 独立,则 $Cov(X,Y)=0$(反之不成立!)
相关系数
$$\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$$
- $-1\leq \rho_{XY}\leq 1$
- $\rho>0$:正线性相关;$\rho<0$:负线性相关;$\rho=0$:不线性相关(不相关)
- $|\rho|=1 \iff$ $Y$ 与 $X$ 几乎处处线性相关:$P(Y=aX+b)=1$
独立、不相关、相关的关系
$$\text{独立} ;\Longrightarrow; \text{不相关(}Cov=0\text{)}$$
但"不相关"不一定"独立"(可能有非线性关系)。例外:若 $(X,Y)$ 服从二维正态分布,则不相关 $\iff$ 独立。
例题 4-2:$X\sim N(0,1)$,$Y=X^2$。求 $Cov(X,Y)$,判断是否独立。
解:$Cov(X,Y)=E(X\cdot X^2)-E(X)E(X^2)=E(X^3)-0\cdot E(X^2)$。$X\sim N(0,1)$ 的奇数阶矩均为 0,故 $Cov=0$。但 $Y=X^2$ 显然 $X,Y$ 不独立($Y$ 完全由 $X$ 决定)。这说明"不相关 $\neq$ 独立"。
4.4 常见分布的数字特征汇总
| 分布 | 记号 | $E(X)$ | $D(X)$ |
|---|---|---|---|
| 0-1 分布 | $B(1,p)$ | $p$ | $p(1-p)$ |
| 二项分布 | $B(n,p)$ | $np$ | $np(1-p)$ |
| 泊松分布 | $P(\lambda)$ | $\lambda$ | $\lambda$ |
| 几何分布 | $Ge(p)$ | $1/p$ | $(1-p)/p^2$ |
| 超几何分布 | $H(N,M,n)$ | $n\frac{M}{N}$ | $n\frac{M}{N}\frac{N-M}{N}\frac{N-n}{N-1}$ |
| 均匀分布 | $U(a,b)$ | $\frac{a+b}{2}$ | $\frac{(b-a)^2}{12}$ |
| 指数分布 | $Exp(\lambda)$ | $1/\lambda$ | $1/\lambda^2$ |
| 正态分布 | $N(\mu,\sigma^2)$ | $\mu$ | $\sigma^2$ |
| $\chi^2$ 分布 | $\chi^2(n)$ | $n$ | $2n$ |
| $t$ 分布 | $t(n)$ | $0;(n>1)$ | $\frac{n}{n-2};(n>2)$ |
| $F$ 分布 | $F(n_1,n_2)$ | $\frac{n_2}{n_2-2};(n_2>2)$ | $\frac{2n_2^2(n_1+n_2-2)}{n_1(n_2-2)^2(n_2-4)};(n_2>4)$ |
4.5 大数定律与中心极限定理
切比雪夫不等式
若 $E(X)=\mu$,$D(X)=\sigma^2$,则对任意 $\varepsilon>0$: $$P(|X-\mu|\geq\varepsilon)\leq\frac{\sigma^2}{\varepsilon^2},\quad P(|X-\mu|<\varepsilon)\geq 1-\frac{\sigma^2}{\varepsilon^2}$$
方差越小,偏离均值的概率越小。这是一个保守估计,不是精确概率。
例题 4-3:$E(X)=100$,$D(X)=25$,用切比雪夫不等式求 $P(90<X<110)$ 的下界。
解:$\varepsilon=10$,$P(|X-100|<10)\geq1-\frac{25}{100}=0.75$。
大数定律
若 $X_1,X_2,\ldots$ 独立同分布,$E(X_i)=\mu$,则样本均值 $\bar{X}=\frac{1}{n}\sum X_i$ 依概率收敛于 $\mu$: $$\lim_{n\to\infty}P(|\bar{X}-\mu|<\varepsilon)=1$$
含义:大量重复试验的平均结果趋于理论期望。这是频率稳定于概率的理论基础。
中心极限定理
若 $X_1,\ldots,X_n$ 独立同分布,$E(X_i)=\mu$,$D(X_i)=\sigma^2$,则当 $n$ 足够大: $$\frac{\sum X_i - n\mu}{\sigma\sqrt{n}} ;\xrightarrow{d}; N(0,1)$$
等价地:$\bar{X}$ 近似 $\sim N(\mu,;\sigma^2/n)$。
这条定理的直觉很重要:很多细小、独立的随机扰动加在一起,整体形状会越来越像正态分布。就像一张试卷的总分由很多小题相加,单题可能不是正态,但总分常常会呈现中间多、两头少的钟形。
棣莫弗-拉普拉斯中心极限定理(二项正态近似):若 $X\sim B(n,p)$,$n$ 大,则: $$X \approx N(np,;np(1-p)),\quad \frac{X-np}{\sqrt{np(1-p)}}\approx N(0,1)$$
连续性修正(提高精度):$P(a\leq X\leq b)\approx P(a-0.5<Y<b+0.5)$,其中 $Y$ 是近似正态变量。
例题 4-4:掷均匀硬币 100 次,用正态近似求正面次数在 45 到 55 之间的概率。
解:$X\sim B(100,0.5)$,$np=50$,$np(1-p)=25$。 $$P(45\leq X\leq 55)\approx P!\left(\frac{44.5-50}{5}<Z<\frac{55.5-50}{5}\right)=\Phi(1.1)-\Phi(-1.1)=2\Phi(1.1)-1\approx 0.7287$$
例题 4-5:某电站供电 10000 户,每户用电概率 0.8,独立。求用电户数在 7900 到 8100 之间的概率(近似)。
解:$E=8000$,$D=10000\times0.8\times0.2=1600$,$\sigma=40$。 $$ \begin{aligned} P(7900\leq X\leq 8100) &\approx \Phi!\left(\frac{8100.5-8000}{40}\right) -\Phi!\left(\frac{7899.5-8000}{40}\right) \ &=\Phi(2.5125)-\Phi(-2.5125)\approx0.988 \end{aligned} $$
五、统计量与抽样分布
这一章先记一句话:样本本身是随机的,所以由样本算出的统计量也有分布。
5.1 总体、样本与统计量
基本概念
总体:研究对象的全体 个体:总体中的每个元素 简单随机样本:$X_1,\ldots,X_n$ 独立且与总体同分布 统计量:只含样本不含未知参数的函数(如 $\bar{X},S^2$,不含 $\mu,\sigma$)
这一章开始,视角翻过来了。前面是“我知道总体分布,所以算样本会怎样”;统计部分是“我只拿到一小把样本,要反推背后的总体”。样本像从锅里舀出来的一勺汤,统计量就是你从这一勺汤里量出来的咸淡、平均温度和波动。
常用统计量
| 统计量 | 公式 | 说明 |
|---|---|---|
| 样本均值 | $\bar{X}=\frac{1}{n}\sum X_i$ | 一阶样本原点矩 |
| 样本方差 | $S^2=\frac{1}{n-1}\sum(X_i-\bar{X})^2$ | 分母 $n-1$(无偏!) |
| 样本 $k$ 阶原点矩 | $A_k=\frac{1}{n}\sum X_i^k$ | $A_1=\bar{X}$ |
| 样本 $k$ 阶中心矩 | $B_k=\frac{1}{n}\sum(X_i-\bar{X})^k$ | $B_2$ 分母为 $n$(有偏!) |
注意:$S^2$ 分母是 $n-1$ 是为了使 $E(S^2)=\sigma^2$(无偏)。$\frac{1}{n}\sum(X_i-\bar{X})^2$ 的期望是 $\frac{n-1}{n}\sigma^2$,有偏。
5.2 三大抽样分布
- (1) $\chi^2$ 分布
若 $Z_1,\ldots,Z_n$ 独立同分布且都服从 $N(0,1)$,则 $\chi^2=\sum Z_i^2\sim\chi^2(n)$。
$E(\chi^2)=n$,$D(\chi^2)=2n$ 可加性:若 $U\sim\chi^2(n_1)$,$V\sim\chi^2(n_2)$ 独立,则 $U+V\sim\chi^2(n_1+n_2)$
密度图像:$n\leq2$ 时单调递减;$n>2$ 时呈单峰右偏态
$\alpha$ 上侧分位数 $\chi^2_\alpha(n)$:$P(\chi^2>\chi^2_\alpha(n))=\alpha$
(2) $t$ 分布
若 $X\sim N(0,1)$,$Y\sim\chi^2(n)$,$X$ 与 $Y$ 独立,则 $T=\frac{X}{\sqrt{Y/n}}\sim t(n)$。
$t$ 分布关于 0 对称,尾部比 $N(0,1)$ 厚
当 $n\to\infty$ 时,$t(n)\to N(0,1)$ 用途:总体方差 $\sigma^2$ 未知时,均值 $\mu$ 的推断
(3) $F$ 分布
若 $U\sim\chi^2(n_1)$,$V\sim\chi^2(n_2)$,$U,V$ 独立,则 $F=\frac{U/n_1}{V/n_2}\sim F(n_1,n_2)$。
用途:两个正态总体方差比 $\sigma_1^2/\sigma_2^2$ 的推断 性质:若 $F\sim F(n_1,n_2)$,则 $1/F\sim F(n_2,n_1)$
- $F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2,n_1)}$
5.3 正态总体下的重要结论(必须熟记!)
设 $X_1,\ldots,X_n$ 独立同分布且都服从 $N(\mu,\sigma^2)$,则:
| 结论 | 分布 | 用途 |
|---|---|---|
| $\bar{X}$ | $N(\mu,\sigma^2/n)$ | 均值分布 |
| $\frac{(n-1)S^2}{\sigma^2}$ | $\chi^2(n-1)$ | 方差推断 |
| $\bar{X}$ 与 $S^2$ | 相互独立 | — |
| $\frac{\bar{X}-\mu}{S/\sqrt{n}}$ | $t(n-1)$ | $\sigma$ 未知时均值推断 |
两正态总体:$X_1,\ldots,X_{n_1}$ 独立同分布且都服从 $N(\mu_1,\sigma_1^2)$,$Y_1,\ldots,Y_{n_2}$ 独立同分布且都服从 $N(\mu_2,\sigma_2^2)$,两样本独立。
- 方差已知时均值差:$\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)$
- 方差未知但相等($\sigma_1^2=\sigma_2^2=\sigma^2$)时: $$ \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2) $$ 其中 $$ S_p^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} $$ 为合并样本方差。
- 方差比:$\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)$
六、参数估计与假设检验
这一章先记一句话:我们不知道总体参数,只能用样本去估计和检验。
6.1 点估计
矩估计法
思想:总体矩 = 样本矩,有几个参数就列几个方程。
步骤:
- 写出总体矩 $E(X),E(X^2),\ldots$ 用参数表示
- 写出样本矩 $A_1=\bar{X},A_2=\frac{1}{n}\sum X_i^2,\ldots$
- 令总体矩 = 样本矩
- 解出参数
例题 6-1:$X\sim U(0,\theta)$,求 $\theta$ 的矩估计。
解:$E(X)=\theta/2$。令 $\theta/2=\bar{X}$,得 $\hat{\theta}=2\bar{X}$。
例题 6-2:$X\sim N(\mu,\sigma^2)$,求 $\mu,\sigma^2$ 的矩估计。
解: 先用一阶矩:$E(X)=\bar{X}$,得到 $$ \hat{\mu}=\bar{X} $$
再用二阶矩:令 $$ E(X^2)=\frac{1}{n}\sum X_i^2 $$ 且 $$ E(X^2)=D(X)+[E(X)]^2=\sigma^2+\mu^2 $$ 代入可得 $$ \hat{\sigma}^2 =\frac{1}{n}\sum X_i^2-\bar{X}^2 =\frac{1}{n}\sum(X_i-\bar{X})^2 $$ 这是有偏估计。
最大似然估计
思想:已观察到样本 $x_1,\ldots,x_n$,选择使得这些样本出现概率最大的 $\theta$。
矩估计像“用样本平均值去对齐总体平均值”,最大似然估计则像破案:现在现场已经留下这些样本痕迹,哪个参数最可能制造出这些痕迹,就选哪个参数。
步骤:
- 写出似然函数 $L(\theta)=\prod f(x_i;\theta)$(连续)或 $\prod P(X=x_i;\theta)$(离散)
- 取对数 $\ln L(\theta)$
- 求导 $\frac{d\ln L}{d\theta}=0$(多参数时求偏导)
- 解出 $\hat{\theta}$
- 检查最大值或参数边界
例题 6-3:$X\sim Exp(\lambda)$,样本 $x_1,\ldots,x_n$,求 $\lambda$ 的最大似然估计。
解:$L(\lambda)=\prod_{i=1}^n\lambda e^{-\lambda x_i}=\lambda^n e^{-\lambda\sum x_i}$。 $\ln L=n\ln\lambda-\lambda\sum x_i$。 $\frac{d\ln L}{d\lambda}=\frac{n}{\lambda}-\sum x_i=0$,得 $\hat{\lambda}=\frac{n}{\sum x_i}=\frac{1}{\bar{x}}$。
例题 6-4:$X\sim N(\mu,\sigma^2)$,求 $\mu,\sigma^2$ 的最大似然估计。
解:$L=\prod\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}=(2\pi\sigma^2)^{-n/2}\exp!\left[-\frac{\sum(x_i-\mu)^2}{2\sigma^2}\right]$。 $\ln L=-\frac{n}{2}\ln(2\pi)-\frac{n}{2}\ln\sigma^2-\frac{\sum(x_i-\mu)^2}{2\sigma^2}$。 求偏导得 $\hat{\mu}=\bar{x}$,$\hat{\sigma}^2=\frac{1}{n}\sum(x_i-\bar{x})^2$。
例题 6-5(最大似然估计的不变性):$X\sim P(\lambda)$,已求得 $\hat{\lambda}=\bar{x}$。求 $P(X=0)=e^{-\lambda}$ 的最大似然估计。
解:由最大似然估计的不变性,$\widehat{P(X=0)}=e^{-\hat{\lambda}}=e^{-\bar{x}}$。
估计量的评价标准
无偏性:$E(\hat{\theta})=\theta$。如 $\bar{X}$ 是 $\mu$ 的无偏估计,$S^2$ 是 $\sigma^2$ 的无偏估计。 有效性:在无偏估计量中,方差越小越有效。例如 $n$ 越大,$\bar{X}$ 越有效。 相合性(一致性):$\hat{\theta}_n \xrightarrow{P} \theta$($n\to\infty$ 时估计量趋近真值)。
例题 6-6:证明 $\hat{\sigma}^2=\frac{1}{n}\sum(X_i-\bar{X})^2$ 不是 $\sigma^2$ 的无偏估计。
证:$E(\hat{\sigma}^2)=E!\left(\frac{n-1}{n}\cdot\frac{1}{n-1}\sum(X_i-\bar{X})^2\right)=\frac{n-1}{n}E(S^2)=\frac{n-1}{n}\sigma^2\neq\sigma^2$。 偏差为 $-\sigma^2/n$,当 $n\to\infty$ 时趋于 0,说明虽不是无偏但是相合的。
6.2 区间估计
区间估计给一个范围 $(\hat{\theta}_L,;\hat{\theta}_U)$,并说明置信水平 $1-\alpha$。
核心方法:构造枢轴量——含有参数 $\theta$ 且分布完全已知的统计量。
枢轴量可以理解成一把“可查表的尺子”。它里面虽然带着未知参数,但整体分布是已知的,所以我们可以先在这把尺子上圈出高概率区间,再把不等式倒回去解出参数范围。
单个正态总体均值的置信区间
| 条件 | 枢轴量 | 置信区间 |
|---|---|---|
| $\sigma^2$ 已知 | $Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$ | $\bar{X}\pm z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$ |
| $\sigma^2$ 未知 | $T=\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$ | $\bar{X}\pm t_{\alpha/2}(n-1)\cdot\frac{S}{\sqrt{n}}$ |
单个正态总体方差的置信区间
枢轴量 $\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)$: $$\left(\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)},;\frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\right)$$
注意上下限:$\sigma^2$ 在分母,解不等式时方向颠倒!
两正态总体均值差的置信区间
| 条件 | 枢轴量 | 置信区间 |
|---|---|---|
| $\sigma_1^2,\sigma_2^2$ 已知 | $Z$ | $(\bar{X}-\bar{Y})\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$ |
| $\sigma_1^2=\sigma_2^2$ 未知 | $T$(合并 $S_p$) | $(\bar{X}-\bar{Y})\pm t_{\alpha/2}(n_1+n_2-2)\cdot S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$ |
两正态总体方差比的置信区间
枢轴量 $\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1)$: $$\left(\frac{S_1^2}{S_2^2}\cdot\frac{1}{F_{\alpha/2}(n_1-1,n_2-1)},;\frac{S_1^2}{S_2^2}\cdot F_{\alpha/2}(n_2-1,n_1-1)\right)$$
例题 6-7:随机抽 16 个零件,测得 $\bar{x}=50$,$s=4$。求零件平均长度 $\mu$ 的 95% 置信区间。
解:$\sigma$ 未知,用 $t$ 分布。$t_{0.025}(15)\approx2.131$。 区间:$50\pm2.131\times\frac{4}{\sqrt{16}}=50\pm2.131\times1=50\pm2.131=(47.87,;52.13)$。
6.3 假设检验
基本概念
先假定原假设 $H_0$ 成立,然后看样本结果是否"过于反常"。如果太反常,就拒绝 $H_0$。
原假设 $H_0$:默认/保守假设,通常含等号(如 $H_0:\mu=\mu_0$) 备择假设 $H_1$:想验证的方向($\neq$、$>$、$<$) 显著性水平 $\alpha$:犯第一类错误(弃真)的概率上限。常见 $0.05$、$0.01$ 第一类错误:$H_0$ 真却被拒绝(概率 $\leq\alpha$) 第二类错误:$H_0$ 假却没被拒绝(概率记为 $\beta$) 检验功效:$1-\beta$,即正确拒绝错误 $H_0$ 的概率
| $H_0$ 为真 | $H_0$ 为假 | |
|---|---|---|
| 拒绝 $H_0$ | 第一类错误($\alpha$) | 正确决策($1-\beta$) |
| 不拒绝 $H_0$ | 正确决策($1-\alpha$) | 第二类错误($\beta$) |
p 值法(补充)
p 值:在 $H_0$ 成立下,观察到比当前样本更极端结果的概率。
- 若 $p\text{ 值} < \alpha$,拒绝 $H_0$
- 若 $p\text{ 值} \geq \alpha$,不拒绝 $H_0$
p 值越小,反对 $H_0$ 的证据越强。
检验的一般步骤
- 写 $H_0$ 和 $H_1$
- 选择检验统计量
- 在 $H_0$ 成立下确定统计量分布
- 根据 $\alpha$ 和 $H_1$ 确定拒绝域
- 代入样本计算统计量值
- 判断是否落入拒绝域
- 写结论("拒绝 $H_0$"或"不拒绝 $H_0$")
单个正态总体均值的检验
| 条件 | 统计量 | $H_1:\mu\neq\mu_0$ | $H_1:\mu>\mu_0$ | $H_1:\mu<\mu_0$ |
|---|---|---|---|---|
| $\sigma^2$ 已知 | $Z=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}$ | $\vert Z\vert >z_{\alpha/2}$ | $Z>z_\alpha$ | $Z<-z_\alpha$ |
| $\sigma^2$ 未知 | $T=\frac{\bar{X}-\mu_0}{S/\sqrt{n}}$ | $\vert T\vert >t_{\alpha/2}(n-1)$ | $T>t_\alpha(n-1)$ | $T<-t_\alpha(n-1)$ |
单个正态总体方差的检验
统计量 $\chi^2=\frac{(n-1)S^2}{\sigma_0^2}\sim\chi^2(n-1)$。
| $H_1$ | 拒绝域 |
|---|---|
| $\sigma^2\neq\sigma_0^2$ | $\chi^2<\chi^2_{1-\alpha/2}(n-1)$ 或 $\chi^2>\chi^2_{\alpha/2}(n-1)$ |
| $\sigma^2>\sigma_0^2$ | $\chi^2>\chi^2_\alpha(n-1)$ |
| $\sigma^2<\sigma_0^2$ | $\chi^2<\chi^2_{1-\alpha}(n-1)$ |
两正态总体均值差的检验
| 条件 | 统计量 | 分布 |
|---|---|---|
| $\sigma_1^2,\sigma_2^2$ 已知 | $Z=\frac{(\bar{X}-\bar{Y})-\delta_0}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$ | $N(0,1)$ |
| $\sigma_1^2=\sigma_2^2$ 未知 | $T=\frac{(\bar{X}-\bar{Y})-\delta_0}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$ | $t(n_1+n_2-2)$ |
其中 $S_p^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}$。
两正态总体方差比的检验
$H_0:\sigma_1^2=\sigma_2^2$,统计量 $F=S_1^2/S_2^2\sim F(n_1-1,n_2-1)$。
| $H_1$ | 拒绝域 |
|---|---|
| $\sigma_1^2\neq\sigma_2^2$ | $F<F_{1-\alpha/2}(n_1-1,n_2-1)$ 或 $F>F_{\alpha/2}(n_1-1,n_2-1)$ |
| $\sigma_1^2>\sigma_2^2$ | $F>F_\alpha(n_1-1,n_2-1)$ |
| $\sigma_1^2<\sigma_2^2$ | $F<F_{1-\alpha}(n_1-1,n_2-1)$ |
例题 6-8:某厂宣称产品平均寿命 1000h。抽 25 件测得 $\bar{x}=980$,$s=65$。在 $\alpha=0.05$ 下,是否认为平均寿命低于宣称值?
解:$H_0:\mu=1000$,$H_1:\mu<1000$(左侧检验)。$\sigma$ 未知,用 $t$ 检验。 $T=\frac{980-1000}{65/\sqrt{25}}=\frac{-20}{13}=-1.538$。 $t_{0.05}(24)\approx1.711$。拒绝域 $T<-1.711$。 $-1.538>-1.711$,不落入拒绝域,故不拒绝 $H_0$,即没有充分证据认为平均寿命低于 1000h。
七、备考总结
这一章先记一句话:做题先判断题型,再选工具,最后代公式计算。
7.1 题型-方法总表
A. 事件概率类
| 题型 | 关键词 | 方法 |
|---|---|---|
| 事件关系表达 | 至少、至多、恰有、都不、不全 | 集合运算或列 8 种状态 |
| 并交补概率 | $P(A),P(B),P(AB)$ | 容斥公式、补事件、文氏图 |
| 古典概型 | 等可能、有限样本点 | 有利数 / 总数 |
| 几何概型 | 随机取点、会面 | 测度比 |
| 抽球 | 有放回、无放回 | 有放回用乘法,无放回用组合/排列 |
| 条件概率 | 已知、在……条件下 | $P(A\mid B)=P(AB)/P(B)$ |
| 全概率 | 多来源、多路径 | $\sum P(B_i)P(A\mid B_i)$ |
| 贝叶斯 | 已知结果反推来源 | 后验 = 路径概率 / 总概率 |
| 独立性 | 互不影响 | $P(AB)=P(A)P(B)$ |
B. 一维随机变量类
| 题型 | 关键词 | 方法 |
|---|---|---|
| 求分布律 | X 的可能值有限 | 列值、求概率、检查和=1 |
| 分布律→分布函数 | 离散型 X | 累加概率,阶梯函数 |
| 密度求参数 | $f(x)=c\cdots$ | 总积分=1 |
| 密度求概率 | 连续型区间概率 | 积分 |
| 密度→分布函数 | $F(x)=P(X\leq x)$ | 从 $-\infty$ 积到 $x$,分段 |
| 分布函数→密度 | 连续型 | 求导 |
| 正态概率 | $N(\mu,\sigma^2)$ | 标准化→查表 |
| 函数分布 | $Y=g(X)$ | 分布函数法或合并概率 |
C. 二维随机变量类
| 题型 | 关键词 | 方法 |
|---|---|---|
| 联合表求边缘 | 离散二维表 | 行和、列和 |
| 条件分布 | 已知 X 或 Y | 某格 / 行和或列和 |
| 离散独立 | 联合表 | 每格是否=边缘乘积 |
| 联合密度求常数 | $f(x,y)=c\cdots$ | 二重积分=1 |
| 联合密度求边缘 | 只关心 X 或 Y | 积掉另一个变量 |
| 联合密度求概率 | $P((X,Y)\in D)$ | 画区域,二重积分 |
| 连续独立 | $f(x,y)$ | 是否=$f_X f_Y$ |
| $X+Y$ 分布 | 和变量 | 卷积 |
| 最大/最小 | $\max$/$\min$ | 分布函数法+反事件 |
D. 数字特征类
| 题型 | 方法 |
|---|---|
| 求 $E(X)$ | 离散求和,连续积分 |
| 求 $E[g(X)]$ | 不必先求 Y 分布,直接代函数 |
| 求 $D(X)$ | $E(X^2)-[E(X)]^2$ |
| 求 $Cov(X,Y)$ | $E(XY)-E(X)E(Y)$ |
| 求相关系数 | $Cov$ / 标准差乘积 |
| 判断不相关 | $Cov=0$ |
| 判断独立 | 回联合分布,不看 $Cov$ |
E. 极限定理类
| 题型 | 方法 |
|---|---|
| 概率下界估计 | 切比雪夫不等式 |
| 样本均值稳定 | 大数定律 |
| 样本和近似正态 | 中心极限定理 |
| 二项分布近似 | 正态近似+连续性修正 |
F. 数理统计类
| 题型 | 方法 |
|---|---|
| 判断统计量 | 是否只含样本、不含未知参数 |
| 样本均值分布 | $\bar{X}\sim N(\mu,\sigma^2/n)$ |
| 样本方差分布 | $(n-1)S^2/\sigma^2\sim\chi^2(n-1)$ |
| $\sigma$ 未知均值推断 | $t$ 分布 |
| 方差推断 | $\chi^2$ 分布 |
| 两方差比 | $F$ 分布 |
| 矩估计 | 总体矩 = 样本矩 |
| 最大似然 | 写 $L$→取 $\ln$→求导 |
| 无偏性 | 求估计量期望 |
| 置信区间 | 构造枢轴量 |
| 假设检验 | $H_0$ 下看统计量是否入拒绝域 |
7.2 核心底层方法十二条
- 先判断对象层级:事件题?一维变量题?二维变量题?数字特征题?统计推断题?
- 事件题:画文氏图或列状态。两个事件画四块,三个事件列八种。
- 古典概型:分母比分子更重要。注意是否等可能、是否考虑顺序、是否有放回、是否计数方式一致。
- 条件概率:样本空间变了。$P(A\mid B)$ 是在 $B$ 这个新世界里 $A$ 占多少。
- 全概率:正向分路径。多来源→先设来源 $B_i$,$P(A)=$ 所有路径概率相加。
- 贝叶斯:反向追来源。原因→结果用全概率,结果→原因用贝叶斯。
- 分布函数永远是 $F(x)=P(X\leq x)$。函数分布题更要靠这个定义。
- 密度不是概率,积分才是概率。$f(a)$ 不是 $P(X=a)$,概率来自面积。
- 二维题的生命线是画区域。画有效区域→画事件区域→取交集→选积分顺序→写上下限。
- 期望是加权平均,方差是波动。方差优先用 $E(X^2)-[E(X)]^2$。
- 独立性统一逻辑:事件 $P(AB)=P(A)P(B)$,离散 $p_{ij}=p_i p_j$,连续 $f(x,y)=f_X f_Y$。
- 统计推断的本质是"用样本反推总体"。前半概率论:总体→样本;后半数理统计:样本→总体。
7.3 最易混淆的知识点辨析
| 易混淆对 | 区分要点 |
|---|---|
| 互不相容 vs 独立 | 互不相容 = 不能同时发生;独立 = 互不影响。非零概率事件互不相容则一定不独立 |
| $P(A\mid B)$ vs $P(B\mid A)$ | 一般不相等!分母是条件事件,分子是两者同时发生 |
| 二项 vs 超几何 | 有放回/独立重复→二项;无放回→超几何。$N$ 大 $n$ 小时超几何近似二项 |
| 泊松 vs 指数 | 泊松数"次数"(单位时间发生 $k$ 次);指数数"时间"(等待下一次的时间) |
| 分布函数端点 | 离散型注意 $P(a\leq X\leq b)=F(b)-F(a-)$;连续型端点无所谓 |
| 样本方差分母 | $S^2$ 分母是 $n-1$(无偏),$\frac{1}{n}\sum(X_i-\bar{X})^2$ 有偏 |
| 不相关 vs 独立 | 独立⇒不相关;不相关⇏独立(可能有非线性关系)。例外:二维正态下等价 |
| $t$ / $\chi^2$ / $F$ 用途 | $t$→均值推断($\sigma$ 未知);$\chi^2$→方差推断;$F$→两方差比 |
| 置信区间 vs 假设检验 | 本质相通:双侧 $(1-\alpha)$ 置信区间等价于水平 $\alpha$ 的双侧检验接受域 |
| 矩估计 vs 最大似然 | 矩估计简单但未必最优;最大似然通常更有效且有不变性,但需要解方程 |
7.4 复习建议与总纲
复习优先级:
- 第一优先级(核心贯通):随机事件概率→一维随机变量分布→二维随机变量分布→期望方差→常见分布
- 第二优先级(题型固定):大数定律、中心极限定理→统计量和抽样分布
- 第三优先级(套路最强):参数估计→假设检验(关键是识别"用 Z / t / $\chi^2$ / F 哪个分布")
最简洁的总纲:
先把随机现象变成事件,再把事件变成随机变量,再用分布描述随机变量,再用期望方差概括分布,再用样本反推总体。
做题五判断:
- 问的是事件还是变量?
- 是离散还是连续?
- 是一维还是二维?
- 是求概率、求分布、求数字特征,还是做统计推断?
- 已知分布求概率,还是已知样本估参数?
只要把这五个判断做对,概率论的大多数题就不是"背公式",而是"选择正确工具"。