2026-05-25 更新于 2026-06-10

概率论笔记

关于概率论与数理统计的笔记。

这份笔记按初学者最容易上手的顺序整理:

第一章:随机事件及其概率

第二章:一维随机变量及其分布

第三章:二维随机变量及其分布

第四章:随机变量的数字特征与极限定理

第五章:统计量与常用抽样分布

第六章:参数估计

第七章:假设检验

后面还有若干学期期末试卷试题分析。

阅读方式建议:先看“这一节先记住什么”,再看公式,最后做例题。


一、概率论底层逻辑与随机事件及其概率

这一章先记一句话:先把随机现象写成事件,再用集合关系做概率计算。

1.1 概率论研究的四层结构

概率论的核心不是"套公式",而是研究:

在随机现象中,如何用数学语言描述事件、变量、分布,以及它们之间的关系。

可以把整门课拆成四层:

第一层:事件层 — 研究"某件事发生不发生"。例如袋子里抽球,事件 A 表示"抽到红球";事件 B 表示"抽到偶数"。研究的是:A 是否发生?A 和 B 是否同时发生?A 发生时 B 的概率是多少?A、B 是否独立?对应内容:随机事件、概率、条件概率、全概率、贝叶斯、独立性。

第二层:随机变量层 — 事件太零散,所以把随机结果数值化。例如掷骰子,X 表示点数;抽产品,X 表示次品个数;测寿命,X 表示使用时间。这时研究:X 取某个值的概率?X 落在某个区间的概率?X 的分布函数?X 的密度函数?对应内容:离散/连续型随机变量、分布函数、概率密度、常见分布。

第三层:多变量关系层 — 现实中经常多个变量一起变化。例如 X 表示身高,Y 表示体重。核心问题:联合分布?边缘分布?条件分布?是否独立?Z=X+Y 的分布?对应内容:二维随机变量、联合/边缘/条件分布、独立性、函数分布。

第四层:统计推断层 — 概率论前半假设"分布已知"求概率/期望/方差,数理统计反过来:分布或参数未知,只能从样本推测总体。对应内容:样本、统计量、抽样分布、参数估计、置信区间、假设检验。


1.2 随机试验、样本空间与随机事件

先记一句话

随机试验必须满足三个条件:可以在相同条件下重复;所有可能结果事先可知;每次具体出现哪个结果不可预知。

样本空间 $\Omega$ 是所有可能结果的集合。随机事件 $A$ 是样本空间 $\Omega$ 的子集。所以事件的本质是集合,概率运算本质是集合运算

事件之间的关系

  • $A \subset B$:$A$ 发生必然导致 $B$ 发生
  • $A = B$:$A$ 与 $B$ 等价
  • $A \cup B$:$A$ 或 $B$ 发生(和事件)
  • $A \cap B$(简写 $AB$):$A$ 与 $B$ 同时发生(积事件)
  • $A - B$:$A$ 发生但 $B$ 不发生(差事件)
  • $\bar{A}$:$A$ 不发生(对立事件 / 逆事件)
  • $AB = \varnothing$:$A$ 与 $B$ 互不相容(互斥)

对偶律(德摩根律): $$\overline{A \cup B} = \bar{A} \cap \bar{B}, \quad \overline{A \cap B} = \bar{A} \cup \bar{B}$$

题型 1:把文字翻译成事件表达式

文字描述 事件表达式
至少一个发生 $A \cup B \cup C$
都发生 $ABC$
都不发生 $\bar{A}\bar{B}\bar{C}$
恰有一个发生 $A\bar{B}\bar{C} \cup \bar{A}B\bar{C} \cup \bar{A}\bar{B}C$
恰有两个发生 $AB\bar{C} \cup A\bar{B}C \cup \bar{A}BC$
至少两个发生 $AB\bar{C} \cup A\bar{B}C \cup \bar{A}BC \cup ABC$
至多一个发生 $\bar{A}\bar{B}\bar{C} \cup A\bar{B}\bar{C} \cup \bar{A}B\bar{C} \cup \bar{A}\bar{B}C$
不全发生 $\bar{A} \cup \bar{B} \cup \bar{C}$
不全不发生 $A \cup B \cup C$

方法:拆关键词。

  • "至少":包含更多情况
  • "至多":包含更少情况
  • "恰有":精确数量
  • "不全":对"全"的否定
  • "都不":每个都取补

最稳的方法是先列举三事件 $A,B,C$ 的 8 种状态,再勾选符合题意的状态:

$$ ABC,\ AB\bar{C},\ A\bar{B}C,\ \bar{A}BC,\ A\bar{B}\bar{C},\ \bar{A}B\bar{C},\ \bar{A}\bar{B}C,\ \bar{A}\bar{B}\bar{C} $$


1.3 概率的定义与性质

概率的公理化定义

概率 $P(\cdot)$ 是定义在事件域上的实值集合函数,满足:

  1. 非负性:$P(A) \geq 0$
  2. 规范性:$P(\Omega) = 1$
  3. 可列可加性:若 $A_1, A_2, \ldots$ 两两互不相容,则 $P(\bigcup_{i=1}^{\infty}A_i) = \sum_{i=1}^{\infty}P(A_i)$

基本性质

  • $P(\varnothing) = 0$
  • $0 \leq P(A) \leq 1$
  • 若 $A \subset B$,则 $P(A) \leq P(B)$,且 $P(B-A) = P(B) - P(A)$
  • $P(\bar{A}) = 1 - P(A)$
  • 加法公式(两事件):$P(A \cup B) = P(A) + P(B) - P(AB)$
  • 加法公式(三事件——容斥原理): $$P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC)$$
  • 一般容斥公式(n 事件): $$P(\bigcup_{i=1}^{n}A_i) = \sum_{i=1}^{n}P(A_i) - \sum_{i<j}P(A_iA_j) + \sum_{i<j<k}P(A_iA_jA_k) - \cdots + (-1)^{n-1}P(A_1A_2\cdots A_n)$$

题型 2:已知 P(A)、P(B)、P(AB),求并、补、差

核心公式:

  • $P(A \cup B) = P(A) + P(B) - P(AB)$
  • $P(A - B) = P(A) - P(AB)$
  • $P(\bar{A}B) = P(B) - P(AB)$
  • $P(\bar{A} \cup \bar{B}) = 1 - P(AB)$
  • $P(\bar{A}\bar{B}) = 1 - P(A \cup B)$

方法:画文氏图。将样本空间分成四块——$AB$、$A\bar{B}$、$\bar{A}B$、$\bar{A}\bar{B}$,很多题本质就是填这四块的概率。


1.4 古典概型

先记一句话

古典概型两个条件:样本点有限;每个样本点等可能。于是: $$P(A) = \frac{A \text{ 中包含的有利样本点数}}{\text{样本空间 } \Omega \text{ 中的总样本点数}}$$

常见题型:抽球、摸牌、分组、排队、生日、数字排列、骰子、产品抽检。

题型 3:抽球问题

有放回抽样:每次抽完放回,总体不变。若每次 N 种可能,抽 n 次,总样本点数 $N^n$。

无放回抽样:不考虑顺序用组合数 $C(N,n)$;考虑顺序用排列数 $A(N,n)$。

例题 3-1:袋中有 5 红 3 白共 8 个球,无放回地抽 3 个,求:(1) 恰有 2 红的概率;(2) 至少 1 红的概率。

:(1) 总情况 $C(8,3)=56$。恰 2 红即从 5 红选 2、3 白选 1:$C(5,2)\cdot C(3,1)=10\times3=30$。$P=30/56=15/28$。 (2) 反面:全白。$C(3,3)=1$ 种。$P=1-1/56=55/56$。

题型 4:产品抽检问题

N 件产品中有 M 件次品,抽 n 件,求恰有 k 件次品的概率: $$P = \frac{C(M,k) \cdot C(N-M, n-k)}{C(N,n)}$$

这是超几何分布的雏形。

例题 4-1:一批 100 件产品中有 5 件次品,随机抽 10 件,求恰有 2 件次品的概率。

:$P = \frac{C(5,2) \cdot C(95,8)}{C(100,10)}$。

题型 5:排列组合型概率

常见问法:排队相邻/不相邻、男女间隔、指定位置。

方法:相邻→捆绑法;不相邻→插空法;至少/至多→分类讨论或反面;顺序不重要→组合;顺序重要→排列。

例题 5-1:5 男 3 女随机排成一排,求女生全不相邻的概率。

:总排列 $8!$。先排 5 男:$5!$,产生 6 个空位(包括两端),选 3 个放女生:$A(6,3)$。有利:$5! \times A(6,3)=120 \times 120=14400$。$P=14400/40320=5/14$。

题型 6:几何概型

当样本空间是某个几何区域且每个点等可能时: $$P(A) = \frac{A \text{ 的测度(长度/面积/体积)}}{\Omega \text{ 的测度}}$$

例题 6-1(会面问题):两人约定 12:00-13:00 之间到达某地,先到者等 15 分钟后离开,求两人能见面的概率。

:设两人到达时刻分别为 $x, y \in [0,60]$(分钟)。能见面等价于 $|x-y| \leq 15$。样本空间为 $60\times60$ 正方形,有利区域为 $|x-y|\leq15$ 的带状区域。$P = 1 - \frac{45^2}{60^2} = 1 - \frac{9}{16} = \frac{7}{16}$。


1.5 条件概率与乘法公式

条件概率

$$P(A \mid B) = \frac{P(AB)}{P(B)}, \quad P(B) > 0$$

底层不是"B 导致 A",而是样本空间缩小了。原来的 $\Omega$ 被缩小成 $B$。

乘法公式

$$P(AB) = P(A)P(B \mid A) = P(B)P(A \mid B)$$ $$P(ABC) = P(A)P(B \mid A)P(C \mid AB)$$

一般地: $$P(A_1A_2\cdots A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\cdots P(A_n|A_1\cdots A_{n-1})$$

题型 7:连续阶段问题(路径概率)

甲箱抽球后放入乙箱,再从乙箱抽;机器先选择某种状态再产出产品;一个人先通过第一关再通过第二关——按时间顺序乘即可。

例题 7-1:甲箱有 4 红 1 白,乙箱有 3 红 2 白。从甲箱随机取一球放入乙箱,再从乙箱取一球,求从乙箱取出红球的概率。

:设 $A$="从甲箱取红球",$B$="从乙箱取红球"。$P(A)=4/5$,$P(\bar{A})=1/5$。 若 A 发生,乙箱变 4 红 2 白:$P(B|A)=4/6=2/3$。 若 A 不发生,乙箱变 3 红 3 白:$P(B|\bar{A})=3/6=1/2$。 $P(B)=P(A)P(B|A)+P(\bar{A})P(B|\bar{A})=\frac{4}{5}\times\frac{2}{3}+\frac{1}{5}\times\frac{1}{2}=\frac{8}{15}+\frac{1}{10}=\frac{19}{30}$。


1.6 全概率公式与贝叶斯公式

全概率公式

若 $B_1, B_2, \ldots, B_n$ 构成 $\Omega$ 的完备事件组(互不相容、并集为 $\Omega$、每个 $P(B_i)>0$),则: $$P(A) = \sum_{i=1}^{n} P(B_i) P(A \mid B_i)$$

底层逻辑:A 可以通过不同路径发生,分路径求总概率

贝叶斯公式

$$P(B_j \mid A) = \frac{P(B_j)P(A \mid B_j)}{\sum_{i=1}^{n} P(B_i)P(A \mid B_i)}$$

底层逻辑:全概率是"原因→结果",贝叶斯是"结果→反推原因"。$P(B_j)$ 是先验概率,$P(B_j|A)$ 是后验概率。

题型 8:来源反推题

例题 8-1:某产品由甲、乙、丙三厂供应,占比分别为 50%、30%、20%。次品率分别为 2%、3%、4%。现随机抽一件发现是次品,求它来自甲厂的概率。

:设 $B_1,B_2,B_3$ 分别表示来自甲、乙、丙,$A$ 表示抽到次品。 $$\begin{aligned}P(A) &= 0.5\times0.02 + 0.3\times0.03 + 0.2\times0.04 \ &= 0.01 + 0.009 + 0.008 = 0.027\end{aligned}$$ $$P(B_1\mid A) = \frac{0.5\times0.02}{0.027} = \frac{0.01}{0.027} \approx 0.370$$

题型 9:医疗检测题(假阳性陷阱)

例题 9-1:某病患病率 0.1%,检测准确率 99%(患者阳性率 99%,健康人阴性率 99%)。某人检测阳性,求他真的患病的概率。

:$B$=患病,$\bar{B}$=不患病,$A$=检测阳性。 $P(B)=0.001$,$P(\bar{B})=0.999$,$P(A|B)=0.99$,$P(A|\bar{B})=0.01$。 $$\begin{aligned}P(A) &= 0.001\times0.99 + 0.999\times0.01 \ &= 0.00099 + 0.00999 = 0.01098\end{aligned}$$ $$P(B\mid A) = \frac{0.001\times0.99}{0.01098} \approx 0.0902$$ 只有约 9%!这就是假阳性的力量——虽然检测很准,但因为患病率极低,阳性结果中大部分其实是假阳性。


1.7 事件独立性

定义

$A$ 与 $B$ 独立 $\iff P(AB) = P(A)P(B)$。等价地($P(B)>0$ 时):$P(A \mid B) = P(A)$。

含义:B 发生与否,不改变 A 的概率。

多个事件的独立性

$A,B,C$ 两两独立:$P(AB)=P(A)P(B)$,$P(AC)=P(A)P(C)$,$P(BC)=P(B)P(C)$。

$A,B,C$ 相互独立:满足两两独立,且 $P(ABC)=P(A)P(B)P(C)$。

注意:两两独立不一定相互独立。

反例:掷两颗均匀骰子。 设 $A$="第一颗出偶数",$B$="第二颗出偶数",$C$="两颗点数之和为奇数"。

可以验证: $$ P(A)=P(B)=P(C)=\frac{1}{2} $$ $$ P(AB)=P(AC)=P(BC)=\frac{1}{4} $$ 因而两两独立。

但 $$ P(ABC)=0 \ne P(A)P(B)P(C)=\frac{1}{8} $$ 所以 $A,B,C$ 两两独立,但不相互独立。

互不相容 vs 独立

  • 互不相容:$AB=\varnothing$(不能同时发生)
  • 独立:$P(AB)=P(A)P(B)$(互不影响)

若 $A,B$ 互不相容且 $P(A),P(B)$ 均大于 0,则一定不独立(因为一个发生意味着另一个必不发生)。

独立性的性质

若 $A$ 与 $B$ 独立,则 $A$ 与 $\bar{B}$、$\bar{A}$ 与 $B$、$\bar{A}$ 与 $\bar{B}$ 均独立。

题型 10:利用独立性求概率

例题 10-1:三个元件独立工作,每个正常工作的概率为 0.9。求:(1) 三个都正常的概率;(2) 至少一个正常的概率。

:(1) $0.9^3=0.729$。(2) 反面:全不正常 $0.1^3=0.001$,$P=1-0.001=0.999$。


二、一维随机变量及其分布

这一章先记一句话:把“会不会发生”升级成“取什么数、落在哪个区间”。

2.1 随机变量与分布函数

随机变量的本质

随机变量是把随机试验的结果映射成实数的函数。

例如掷硬币:正面→1,反面→0。这个 $X$ 就是随机变量。它的意义是把"事件问题"变成"数值问题"。

按取值类型分为:

  • 离散型:取有限个或可列无限个值。像数人数、数次品、数电话呼入次数。
  • 连续型:取某个区间内的一切实数值。像测寿命、测身高、等车时间。
  • 混合型:离散和连续混在一起,考试较少涉及。

这里最容易卡住的是:随机变量不是“变量会随机乱变”,而是你给随机结果贴上的数字标签。原来样本空间里可能写着“红球、白球、蓝球”,不方便算;贴成 $X=1,2,3$ 后,就能用函数、积分和分布来处理。

分布函数

$$F(x) = P(X \leq x), \quad x \in \mathbb{R}$$

性质

  1. $F(x)$ 单调不减
  2. $0 \leq F(x) \leq 1$,且 $F(-\infty)=0$,$F(+\infty)=1$
  3. $F(x)$ 右连续:$F(x+0)=F(x)$
  4. $P(a < X \leq b) = F(b) - F(a)$
  5. $P(X = a) = F(a) - F(a-0)$(即 $F$ 在 $a$ 处的跳跃度)

分布函数是随机变量最完整的描述。知道 $F(x)$ 就知道 $X$ 落在任意区间的概率。

可以把 $F(x)$ 想象成一把从左往右推的扫帚:扫到位置 $x$ 时,左边已经被扫进去的概率总量就是 $P(X\leq x)$。离散型是一格一格跳着增加,连续型是平滑地一点点增加。

题型 11:判断某函数是否为分布函数

检查四条:单调不减;右连续;$F(-\infty)=0$,$F(+\infty)=1$;取值在 $[0,1]$。分段函数要特别检查分界点处。


2.2 离散型随机变量

分布律(概率质量函数)

$X$ 取 $x_1, x_2, \ldots$,对应概率 $P(X=x_i)=p_i$。要求:$p_i \geq 0$,$\sum p_i = 1$。

由分布律求分布函数

设 $x_1 < x_2 < \cdots < x_n$,概率 $p_1, p_2, \ldots, p_n$,则: $$F(x) = \begin{cases} 0, & x < x_1 \ p_1, & x_1 \leq x < x_2 \ p_1+p_2, & x_2 \leq x < x_3 \ \cdots & \cdots \ 1, & x \geq x_n \end{cases}$$

分布函数呈阶梯形,在每个取值点发生跳跃,跳跃高度就是该点的概率。


2.3 常见离散分布

  • (1) 两点分布 / 0-1 分布 $B(1,p)$

$$P(X=1)=p,\quad P(X=0)=1-p$$ $$E(X)=p,\quad D(X)=p(1-p)$$

应用:一次试验成功/失败、产品合格/不合格、事件发生/不发生。

它是最小的随机变量模型:世界只剩两个出口,成功记 1,失败记 0。后面的二项分布其实就是把这个小开关重复按很多次。

  • (2) 二项分布 $B(n,p)$

$n$ 次独立重复试验,每次成功概率 $p$,$X$ 表示成功次数。

这类题的直觉是:做 $n$ 次完全同样的试验,每次只有成败两个结果,最后数一共成功了几次。公式里的 $C(n,k)$ 负责选出“哪 $k$ 次成功”,$p^k(1-p)^{n-k}$ 负责这一种具体排列的概率。

$$P(X=k) = C(n,k) , p^k (1-p)^{n-k}, \quad k=0,1,\ldots,n$$ $$E(X)=np,\quad D(X)=np(1-p)$$

可加性:若 $X\sim B(n_1,p)$,$Y\sim B(n_2,p)$ 且独立,则 $X+Y\sim B(n_1+n_2,p)$。

例题 2-1:某射手命中率 0.8,独立射击 5 次。求:(1) 恰命中 4 次的概率;(2) 至少命中 3 次的概率。

:(1) $C(5,4)\times0.8^4\times0.2=5\times0.4096\times0.2=0.4096$。 (2) $$ \begin{aligned} P(X\geq 3) &=P(X=3)+P(X=4)+P(X=5) \ &=C(5,3)\times0.8^3\times0.2^2+0.4096+0.8^5 \ &=10\times0.512\times0.04+0.4096+0.32768 \ &=0.2048+0.4096+0.32768=0.94208 \end{aligned} $$

  • (3) 泊松分布 $P(\lambda)$

$$P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k=0,1,2,\ldots$$ $$E(X)=\lambda,\quad D(X)=\lambda$$

应用:单位时间内电话呼入次数、单位面积缺陷数、稀有事件计数。

泊松分布像在一条时间线上数“随机掉下来的点”。你不关心哪一秒掉,只关心这一分钟总共掉了几个。它适合描述次数,而且通常是大量机会中小概率发生的事。

泊松定理(二项分布的泊松近似):若 $n\to\infty$,$p\to0$ 且 $np=\lambda$ 恒定,则 $B(n,p) \approx P(\lambda)$。实际中 $n\geq 20$,$p\leq 0.05$(或 $n\geq 100$,$np\leq 10$)时近似效果很好。

可加性:若 $X\sim P(\lambda_1)$,$Y\sim P(\lambda_2)$ 且独立,则 $X+Y\sim P(\lambda_1+\lambda_2)$。

例题 2-2:某电话交换台平均每分钟接到 2 次呼叫。求一分钟内:(1) 恰好 0 次的概率;(2) 至少 3 次的概率。

:$X\sim P(2)$。(1) $P(X=0)=e^{-2}\approx0.1353$。 (2) $P(X\geq 3)=1-P(X=0)-P(X=1)-P(X=2)=1-e^{-2}-2e^{-2}-2e^{-2}=1-5e^{-2}\approx0.3233$。

  • (4) 超几何分布 $H(N,M,n)$

$N$ 个总体含 $M$ 个成功对象,不放回抽 $n$ 个,$X$ 表示成功个数。

超几何分布和二项分布最关键的差别是:抽走一个就少一个。袋子里的结构会变,所以每次试验不再完全独立。凡是题目出现“不放回”“有限总体抽样”,脑子里先亮起超几何。

$$P(X=k) = \frac{C(M,k),C(N-M,n-k)}{C(N,n)}, \quad k=\max(0,n+M-N),\ldots,\min(n,M)$$ $$E(X)=n\cdot\frac{M}{N},\quad D(X)=n\cdot\frac{M}{N}\cdot\frac{N-M}{N}\cdot\frac{N-n}{N-1}$$

与二项分布区别:有放回/独立重复→二项;无放回/总体有限→超几何。当 $N$ 很大而 $n/N$ 很小时,超几何近似为二项。

  • (5) 几何分布 $Ge(p)$

独立重复试验,每次成功概率 $p$,$X$ 表示首次成功所需的试验次数

$$P(X=k) = (1-p)^{k-1}p, \quad k=1,2,\ldots$$ $$E(X)=\frac{1}{p},\quad D(X)=\frac{1-p}{p^2}$$

无记忆性:$P(X > m+n \mid X > m) = P(X > n)$。

几何分布数的是“第一次成功前等了多久”。它像一直刷卡进门:前面失败多少次,不会改变下一次刷成功的概率,所以才有无记忆性。

例题 2-3:某射手命中率 0.3,求他首次命中发生在第 4 次射击的概率。

:$P(X=4)=(1-0.3)^3\times0.3=0.7^3\times0.3=0.1029$。


2.4 连续型随机变量

概率密度函数

若存在非负函数 $f(x)$ 使得 $F(x)=\int_{-\infty}^{x}f(t)dt$,则 $X$ 为连续型,$f(x)$ 为密度函数。

性质

  • $f(x) \geq 0$
  • $\int_{-\infty}^{+\infty}f(x)dx = 1$
  • $P(a < X \leq b) = \int_a^b f(x)dx$
  • $P(X=a)=0$(单点概率为 0)
  • 在 $f(x)$ 的连续点处:$F'(x)=f(x)$

关键认知:密度 $f(x)$ 不是概率,积分才是概率。$f(x)$ 可以大于 1(只要积分=1 即可)。

连续型随机变量里,单独一个点薄得没有面积,所以 $P(X=a)=0$。真正有概率的是一段区间,像看地图上某条带状区域的面积,而不是盯着一根没有宽度的线。

题型 12:由密度求参数、概率、分布函数

例题 2-4:设 $X$ 的密度为

$$ f(x)= \begin{cases} cx^2, & 0 < x < 1,\\ 0, & \text{其他}. \end{cases} $$

求:(1) $c$;(2) $P(0.3<X<0.7)$;(3) $F(x)$。

$$ \int_0^1 cx^2 dx = c\cdot\frac{1}{3}=1 \implies c=3. $$

$$ P(0.3<X<0.7)=\int_{0.3}^{0.7}3x^2 dx=[x^3]_{0.3}^{0.7}=0.343-0.027=0.316. $$

$$ F(x)= \begin{cases} 0, & x<0,\\ x^3, & 0\leq x<1,\\ 1, & x\geq1. \end{cases} $$


2.5 常见连续分布

  • (1) 均匀分布 $U(a,b)$

$$ f(x)=\frac{1}{b-a},\quad a<x<b; \qquad F(x)= \begin{cases} 0, & x<a,\\ \frac{x-a}{b-a}, & a\leq x<b,\\ 1, & x\geq b. \end{cases} $$ $$E(X)=\frac{a+b}{2},\quad D(X)=\frac{(b-a)^2}{12}$$

例题 2-5:$X\sim U(0,10)$,求 $P(3<X<7)$ 和 $P(|X-5|>2)$。

:$P(3<X<7)=\frac{7-3}{10}=0.4$。$P(|X-5|>2)=P(X<3 \text{ 或 } X>7)=\frac{3}{10}+\frac{3}{10}=0.6$。

  • (2) 指数分布 $Exp(\lambda)$

$$f(x)=\lambda e^{-\lambda x},; x>0; \quad F(x)=1-e^{-\lambda x},; x>0$$ $$E(X)=\frac{1}{\lambda},\quad D(X)=\frac{1}{\lambda^2}$$

应用:等待时间、寿命、事件间隔。

无记忆性:$P(X>s+t\mid X>s)=P(X>t)$——已经等了 $s$ 时间后,还需等 $t$ 时间的概率与已等时长无关。在连续分布中,指数分布是唯一具有无记忆性的分布

指数分布可以理解成连续版的“等第一次成功”。比如等下一通电话、等下一次故障。它不问你已经等了多久,只问从现在重新开始还要等多久。

例题 2-6:某电子元件寿命 $X\sim Exp(1/1000)$(平均寿命 1000h)。求:(1) 寿命超过 1000h 的概率;(2) 已知已工作 1000h,再工作 1000h 的概率。

:(1) $P(X>1000)=e^{-1000/1000}=e^{-1}\approx0.3679$。 (2) 由无记忆性:$P(X>2000\mid X>1000)=P(X>1000)=e^{-1}\approx0.3679$。

  • (3) 正态分布 $N(\mu,\sigma^2)$

$$f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp!\left[-\frac{(x-\mu)^2}{2\sigma^2}\right],\quad x\in\mathbb{R}$$ $$E(X)=\mu,\quad D(X)=\sigma^2$$

标准正态分布 $N(0,1)$:密度 $\phi(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}$,分布函数 $\Phi(x)$。

标准正态化:若 $X\sim N(\mu,\sigma^2)$,则 $Z=\frac{X-\mu}{\sigma}\sim N(0,1)$。

正态概率计算三步:标准化→查表→做差(或和)。

正态分布的核心动作是“搬到标准尺上”。不同题里的平均值和波动尺度不一样,但经过 $Z=\frac{X-\mu}{\sigma}$ 标准化后,都变成同一张标准正态表。查表不是另一个知识点,而是把各种正态题统一到同一把尺子上。

例题 2-7:$X\sim N(70,10^2)$,求 $P(60<X<85)$。

:$Z_1=\frac{60-70}{10}=-1$,$Z_2=\frac{85-70}{10}=1.5$。 $P(60<X<85)=\Phi(1.5)-\Phi(-1)=\Phi(1.5)-(1-\Phi(1))$。 查表 $\Phi(1.5)\approx0.9332$,$\Phi(1)\approx0.8413$。 $P=0.9332-(1-0.8413)=0.9332-0.1587=0.7745$。

正态分布的重要性质

  • 线性性:若 $X\sim N(\mu,\sigma^2)$,则 $aX+b\sim N(a\mu+b,;a^2\sigma^2)$

  • 可加性:若 $X\sim N(\mu_1,\sigma_1^2)$,$Y\sim N(\mu_2,\sigma_2^2)$ 且独立,则 $X+Y\sim N(\mu_1+\mu_2,;\sigma_1^2+\sigma_2^2)$

  • $3\sigma$ 原则:$P(|X-\mu|<3\sigma)\approx 0.9973$

  • (4) $\Gamma$ 分布(补充)

指数分布是 $\Gamma$ 分布的特例。若 $X\sim \Gamma(\alpha,\lambda)$: $$f(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},; x>0,;\alpha>0,;\lambda>0$$ $$E(X)=\frac{\alpha}{\lambda},\quad D(X)=\frac{\alpha}{\lambda^2}$$

当 $\alpha=1$ 时退化为指数分布;当 $\alpha=n/2,\lambda=1/2$ 时退化为 $\chi^2(n)$。


2.6 随机变量函数的分布

离散型函数

若 $Y=g(X)$,$X$ 离散,方法:列出 $X$ 所有取值→计算对应 $Y$→合并相同 $Y$ 的概率。

核心:函数映射可能多对一,要合并概率。

例题 2-8:$X$ 取 $-2,-1,0,1,2$ 各概率 0.2。求 $Y=X^2$ 的分布律。

:$Y$ 取 $0,1,4$。$P(Y=0)=P(X=0)=0.2$;$P(Y=1)=P(X=-1)+P(X=1)=0.4$;$P(Y=4)=P(X=-2)+P(X=2)=0.4$。

连续型函数——分布函数法

求 $Y=g(X)$ 的分布,用分布函数法(万能方法):

  1. $F_Y(y)=P(Y\leq y)=P(g(X)\leq y)$
  2. 将不等式 $g(X)\leq y$ 转化为关于 $X$ 的区间
  3. 代入 $F_X$ 或积分
  4. 对 $y$ 求导得 $f_Y(y)$

例题 2-9:$X\sim U(0,1)$,$Y=-2\ln X$,求 $Y$ 的分布。

:$F_Y(y)=P(-2\ln X\leq y)=P(\ln X\geq -y/2)=P(X\geq e^{-y/2})=1-e^{-y/2}$($y>0$)。 $f_Y(y)=F_Y'(y)=\frac{1}{2}e^{-y/2}$($y>0$),即 $Y\sim Exp(1/2)$。

线性变换:$Y=aX+b$,若 $a>0$,$f_Y(y)=\frac{1}{|a|}f_X(\frac{y-b}{a})$。特别地,$f_Y(y)=\frac{1}{|a|}f_X(\frac{y-b}{a})$ 对 $a\neq 0$ 均成立。


三、二维随机变量及其分布

这一章先记一句话:两个变量一起看,核心是“联合、边缘、条件、独立”。

3.1 联合分布函数

$$F(x,y)=P(X\leq x,; Y\leq y)$$

描述 $(X,Y)$ 同时落在左下角区域 $(-\infty,x]\times(-\infty,y]$ 的概率。

性质

  • $F(-\infty,y)=F(x,-\infty)=0$,$F(+\infty,+\infty)=1$
  • $F(x,y)$ 对每个变量单调不减且右连续
  • 矩形概率:$P(a<X\leq b,;c<Y\leq d)=F(b,d)-F(a,d)-F(b,c)+F(a,c)$

3.2 二维离散型随机变量

联合分布律

$$P(X=x_i,; Y=y_j)=p_{ij}, \quad p_{ij}\geq 0,; \sum_i\sum_j p_{ij}=1$$

边缘分布

$$P(X=x_i)=\sum_j p_{ij}=p_{i\cdot} \quad (\text{行和})$$ $$P(Y=y_j)=\sum_i p_{ij}=p_{\cdot j} \quad (\text{列和})$$

条件分布

$$P(X=x_i\mid Y=y_j)=\frac{p_{ij}}{p_{\cdot j}},\quad P(Y=y_j\mid X=x_i)=\frac{p_{ij}}{p_{i\cdot}}$$

独立性判定

$X$ 与 $Y$ 独立 $\iff$ 对所有 $i,j$ 有 $p_{ij}=p_{i\cdot}\cdot p_{\cdot j}$。只要有一个格子不满足,就不独立。

例题 3-1:已知 $(X,Y)$ 联合分布律如下,判断 $X,Y$ 是否独立。

X\Y 0 1
0 0.3 0.2
1 0.2 0.3

:边缘:$P(X=0)=0.5$,$P(X=1)=0.5$;$P(Y=0)=0.5$,$P(Y=1)=0.5$。 检查:$p_{00}=0.3$ vs $0.5\times0.5=0.25$,不等。故 $X,Y$ 不独立。


3.3 二维连续型随机变量

联合密度

$f(x,y)\geq 0$,$\iint_{\mathbb{R}^2}f(x,y)dxdy=1$。区域概率: $$P((X,Y)\in D)=\iint_D f(x,y)dxdy$$

边缘密度

$$f_X(x)=\int_{-\infty}^{+\infty}f(x,y)dy,\quad f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)dx$$

条件密度

$$f_{Y\mid X}(y\mid x)=\frac{f(x,y)}{f_X(x)},\quad f_{X\mid Y}(x\mid y)=\frac{f(x,y)}{f_Y(y)}$$

独立性判定

$X$ 与 $Y$ 独立 $\iff$ 对所有 $x,y$ 有 $f(x,y)=f_X(x)f_Y(y)$。

快速判断技巧

  • 联合密度的有效区域是矩形且 $f(x,y)$ 可拆成 $g(x)h(y)$ → 通常独立
  • 有效区域不是矩形(如 $0<x<y<1$)→ 通常不独立
  • 最终以定义为准

例题 3-2:$(X,Y)$ 的联合密度 $f(x,y)=2e^{-x}e^{-2y}$($x>0,y>0$),其余为 0。判断 $X,Y$ 是否独立。

:$f_X(x)=\int_0^\infty 2e^{-x}e^{-2y}dy=2e^{-x}\cdot[-\frac{1}{2}e^{-2y}]_0^\infty=e^{-x}$($x>0$)。 $f_Y(y)=\int_0^\infty 2e^{-x}e^{-2y}dx=2e^{-2y}\cdot[-e^{-x}]_0^\infty=2e^{-2y}$($y>0$)。 $f_X(x)f_Y(y)=e^{-x}\cdot2e^{-2y}=2e^{-x}e^{-2y}=f(x,y)$,故 $X,Y$ 独立。

例题 3-3:$(X,Y)$ 在区域 $D={0<x<1,;0<y<x}$ 上均匀分布(即 $f(x,y)=c$)。求:(1) $c$;(2) 边缘密度;(3) $P(Y<1/2)$。

:(1) $D$ 是三角形,面积 $=1/2$,$c\cdot\frac{1}{2}=1 \implies c=2$。 (2) $f_X(x)=\int_0^x 2dy=2x$($0<x<1$);$f_Y(y)=\int_y^1 2dx=2(1-y)$($0<y<1$)。 (3) $P(Y<1/2)=\int_0^{1/2}f_Y(y)dy=\int_0^{1/2}2(1-y)dy=[2y-y^2]_0^{1/2}=1-0.25=0.75$。


3.4 二维随机变量函数的分布

  • 离散型:$Z=g(X,Y)$

枚举所有 $(x_i,y_j)$→计算 $z=g(x_i,y_j)$→合并相同 $z$ 的概率。

连续型:和的分布(卷积公式)

若 $X,Y$ 独立,$Z=X+Y$: $$f_Z(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx=\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)dy$$

例题 3-4:$X\sim U(0,1)$,$Y\sim U(0,1)$ 独立,求 $Z=X+Y$ 的密度。

$$ f_Z(z)=\int_{\max(0,z-1)}^{\min(1,z)}1\cdot1\,dx. $$

结果为三角形分布:

$$ f_Z(z)= \begin{cases} z, & 0<z\leq1,\\ 2-z, & 1<z<2,\\ 0, & \text{其他}. \end{cases} $$

最大值与最小值

设 $X_1,\ldots,X_n$ 独立同分布,分布函数 $F(x)$。

  • 最大值 $M=\max(X_1,\ldots,X_n)$:$F_M(x)=[F(x)]^n$
  • 最小值 $m=\min(X_1,\ldots,X_n)$:$F_m(x)=1-[1-F(x)]^n$

例题 3-5:5 个独立同分布元件,每个寿命 $X_i\sim Exp(\lambda)$。求串联(min)和并联(max)系统的寿命分布。

:$F(x)=1-e^{-\lambda x}$($x>0$)。 串联(min):$F_m(x)=1-[e^{-\lambda x}]^5=1-e^{-5\lambda x}$,即 $m\sim Exp(5\lambda)$,平均寿命 $\frac{1}{5\lambda}$。 并联(max):$F_M(x)=[1-e^{-\lambda x}]^5$。平均寿命比单个元件长。

商的分布与瑞利分布(补充)

若 $X,Y$ 独立同分布 $N(0,\sigma^2)$,则 $R=\sqrt{X^2+Y^2}$ 服从 Rayleigh 分布(瑞利分布): $$f_R(r)=\frac{r}{\sigma^2}e^{-r^2/(2\sigma^2)},; r>0$$


四、随机变量的数字特征与极限定理

这一章先记一句话:分布太复杂时,用期望和方差抓住平均水平与波动大小。

4.1 数学期望

定义

  • 离散型:$E(X)=\sum x_i p_i$
  • 连续型:$E(X)=\int_{-\infty}^{+\infty}x f(x)dx$

底层:期望是概率加权平均,是长期平均而非"一定取到的值"。

随机变量函数的期望(无需先求分布!)

  • 一维:$E[g(X)]=\begin{cases}\sum g(x_i)p_i &\text{离散}\\int g(x)f(x)dx &\text{连续}\end{cases}$
  • 二维:$E[g(X,Y)]=\begin{cases}\sum\sum g(x_i,y_j)p_{ij} &\text{离散}\\iint g(x,y)f(x,y)dxdy &\text{连续}\end{cases}$

期望的性质

  • $E(C)=C$
  • $E(aX+b)=aE(X)+b$
  • $E(X+Y)=E(X)+E(Y)$(无条件成立
  • $E(XY)=E(X)E(Y)$(需要 $X,Y$ 独立,或至少不相关)

例题 4-1:$X$ 的密度为

$$ f(x)= \begin{cases} 2x, & 0 < x < 1,\\ 0, & \text{其他}. \end{cases} $$

求 $E(X)$ 和 $E(3X^2+1)$。

$$ E(X)=\int_0^1 x\cdot2x dx=\int_0^1 2x^2 dx=\frac{2}{3}. $$

$$ E(3X^2+1)=\int_0^1 (3x^2+1)\cdot2x dx =\int_0^1(6x^3+2x) dx =\left[\frac{6}{4}x^4+x^2\right]_0^1 =1.5+1=2.5. $$


4.2 方差

定义与公式

$$D(X)=E[(X-E(X))^2]=E(X^2)-[E(X)]^2$$

优先用 $E(X^2)-[E(X)]^2$,比定义式简单。

方差的性质

  • $D(C)=0$
  • $D(aX+b)=a^2D(X)$(平移 $b$ 不影响波动)
  • 若 $X,Y$ 独立:$D(X\pm Y)=D(X)+D(Y)$(注意:独立时,差也是加!)
  • 一般情况:$D(X\pm Y)=D(X)+D(Y)\pm 2Cov(X,Y)$

标准化变量

$$ X^{\ast}=\frac{X-E(X)}{\sqrt{D(X)}},\quad E(X^{\ast})=0,\quad D(X^{\ast})=1. $$

  • $k$ 阶原点矩:$E(X^k)$
  • $k$ 阶中心矩:$E[(X-E(X))^k]$
  • 期望是一阶原点矩,方差是二阶中心矩。

4.3 协方差与相关系数

协方差

$$Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)$$

性质

  • $Cov(X,X)=D(X)$
  • $Cov(aX+b,;cY+d)=ac,Cov(X,Y)$
  • $Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)$
  • 若 $X,Y$ 独立,则 $Cov(X,Y)=0$(反之不成立!)

相关系数

$$\rho_{XY}=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$$

  • $-1\leq \rho_{XY}\leq 1$
  • $\rho>0$:正线性相关;$\rho<0$:负线性相关;$\rho=0$:不线性相关(不相关)
  • $|\rho|=1 \iff$ $Y$ 与 $X$ 几乎处处线性相关:$P(Y=aX+b)=1$

独立、不相关、相关的关系

$$\text{独立} ;\Longrightarrow; \text{不相关(}Cov=0\text{)}$$

但"不相关"不一定"独立"(可能有非线性关系)。例外:若 $(X,Y)$ 服从二维正态分布,则不相关 $\iff$ 独立。

例题 4-2:$X\sim N(0,1)$,$Y=X^2$。求 $Cov(X,Y)$,判断是否独立。

:$Cov(X,Y)=E(X\cdot X^2)-E(X)E(X^2)=E(X^3)-0\cdot E(X^2)$。$X\sim N(0,1)$ 的奇数阶矩均为 0,故 $Cov=0$。但 $Y=X^2$ 显然 $X,Y$ 不独立($Y$ 完全由 $X$ 决定)。这说明"不相关 $\neq$ 独立"。


4.4 常见分布的数字特征汇总

分布 记号 $E(X)$ $D(X)$
0-1 分布 $B(1,p)$ $p$ $p(1-p)$
二项分布 $B(n,p)$ $np$ $np(1-p)$
泊松分布 $P(\lambda)$ $\lambda$ $\lambda$
几何分布 $Ge(p)$ $1/p$ $(1-p)/p^2$
超几何分布 $H(N,M,n)$ $n\frac{M}{N}$ $n\frac{M}{N}\frac{N-M}{N}\frac{N-n}{N-1}$
均匀分布 $U(a,b)$ $\frac{a+b}{2}$ $\frac{(b-a)^2}{12}$
指数分布 $Exp(\lambda)$ $1/\lambda$ $1/\lambda^2$
正态分布 $N(\mu,\sigma^2)$ $\mu$ $\sigma^2$
$\chi^2$ 分布 $\chi^2(n)$ $n$ $2n$
$t$ 分布 $t(n)$ $0;(n>1)$ $\frac{n}{n-2};(n>2)$
$F$ 分布 $F(n_1,n_2)$ $\frac{n_2}{n_2-2};(n_2>2)$ $\frac{2n_2^2(n_1+n_2-2)}{n_1(n_2-2)^2(n_2-4)};(n_2>4)$

4.5 大数定律与中心极限定理

切比雪夫不等式

若 $E(X)=\mu$,$D(X)=\sigma^2$,则对任意 $\varepsilon>0$: $$P(|X-\mu|\geq\varepsilon)\leq\frac{\sigma^2}{\varepsilon^2},\quad P(|X-\mu|<\varepsilon)\geq 1-\frac{\sigma^2}{\varepsilon^2}$$

方差越小,偏离均值的概率越小。这是一个保守估计,不是精确概率。

例题 4-3:$E(X)=100$,$D(X)=25$,用切比雪夫不等式求 $P(90<X<110)$ 的下界。

:$\varepsilon=10$,$P(|X-100|<10)\geq1-\frac{25}{100}=0.75$。

大数定律

若 $X_1,X_2,\ldots$ 独立同分布,$E(X_i)=\mu$,则样本均值 $\bar{X}=\frac{1}{n}\sum X_i$ 依概率收敛于 $\mu$: $$\lim_{n\to\infty}P(|\bar{X}-\mu|<\varepsilon)=1$$

含义:大量重复试验的平均结果趋于理论期望。这是频率稳定于概率的理论基础。

中心极限定理

若 $X_1,\ldots,X_n$ 独立同分布,$E(X_i)=\mu$,$D(X_i)=\sigma^2$,则当 $n$ 足够大: $$\frac{\sum X_i - n\mu}{\sigma\sqrt{n}} ;\xrightarrow{d}; N(0,1)$$

等价地:$\bar{X}$ 近似 $\sim N(\mu,;\sigma^2/n)$。

这条定理的直觉很重要:很多细小、独立的随机扰动加在一起,整体形状会越来越像正态分布。就像一张试卷的总分由很多小题相加,单题可能不是正态,但总分常常会呈现中间多、两头少的钟形。

棣莫弗-拉普拉斯中心极限定理(二项正态近似):若 $X\sim B(n,p)$,$n$ 大,则: $$X \approx N(np,;np(1-p)),\quad \frac{X-np}{\sqrt{np(1-p)}}\approx N(0,1)$$

连续性修正(提高精度):$P(a\leq X\leq b)\approx P(a-0.5<Y<b+0.5)$,其中 $Y$ 是近似正态变量。

例题 4-4:掷均匀硬币 100 次,用正态近似求正面次数在 45 到 55 之间的概率。

:$X\sim B(100,0.5)$,$np=50$,$np(1-p)=25$。 $$P(45\leq X\leq 55)\approx P!\left(\frac{44.5-50}{5}<Z<\frac{55.5-50}{5}\right)=\Phi(1.1)-\Phi(-1.1)=2\Phi(1.1)-1\approx 0.7287$$

例题 4-5:某电站供电 10000 户,每户用电概率 0.8,独立。求用电户数在 7900 到 8100 之间的概率(近似)。

:$E=8000$,$D=10000\times0.8\times0.2=1600$,$\sigma=40$。 $$ \begin{aligned} P(7900\leq X\leq 8100) &\approx \Phi!\left(\frac{8100.5-8000}{40}\right) -\Phi!\left(\frac{7899.5-8000}{40}\right) \ &=\Phi(2.5125)-\Phi(-2.5125)\approx0.988 \end{aligned} $$


五、统计量与抽样分布

这一章先记一句话:样本本身是随机的,所以由样本算出的统计量也有分布。

5.1 总体、样本与统计量

基本概念

总体:研究对象的全体 个体:总体中的每个元素 简单随机样本:$X_1,\ldots,X_n$ 独立且与总体同分布 统计量:只含样本不含未知参数的函数(如 $\bar{X},S^2$,不含 $\mu,\sigma$)

这一章开始,视角翻过来了。前面是“我知道总体分布,所以算样本会怎样”;统计部分是“我只拿到一小把样本,要反推背后的总体”。样本像从锅里舀出来的一勺汤,统计量就是你从这一勺汤里量出来的咸淡、平均温度和波动。

常用统计量

统计量 公式 说明
样本均值 $\bar{X}=\frac{1}{n}\sum X_i$ 一阶样本原点矩
样本方差 $S^2=\frac{1}{n-1}\sum(X_i-\bar{X})^2$ 分母 $n-1$(无偏!)
样本 $k$ 阶原点矩 $A_k=\frac{1}{n}\sum X_i^k$ $A_1=\bar{X}$
样本 $k$ 阶中心矩 $B_k=\frac{1}{n}\sum(X_i-\bar{X})^k$ $B_2$ 分母为 $n$(有偏!)

注意:$S^2$ 分母是 $n-1$ 是为了使 $E(S^2)=\sigma^2$(无偏)。$\frac{1}{n}\sum(X_i-\bar{X})^2$ 的期望是 $\frac{n-1}{n}\sigma^2$,有偏。


5.2 三大抽样分布

  • (1) $\chi^2$ 分布

若 $Z_1,\ldots,Z_n$ 独立同分布且都服从 $N(0,1)$,则 $\chi^2=\sum Z_i^2\sim\chi^2(n)$。

  • $E(\chi^2)=n$,$D(\chi^2)=2n$ 可加性:若 $U\sim\chi^2(n_1)$,$V\sim\chi^2(n_2)$ 独立,则 $U+V\sim\chi^2(n_1+n_2)$

  • 密度图像:$n\leq2$ 时单调递减;$n>2$ 时呈单峰右偏态

  • $\alpha$ 上侧分位数 $\chi^2_\alpha(n)$:$P(\chi^2>\chi^2_\alpha(n))=\alpha$

  • (2) $t$ 分布

若 $X\sim N(0,1)$,$Y\sim\chi^2(n)$,$X$ 与 $Y$ 独立,则 $T=\frac{X}{\sqrt{Y/n}}\sim t(n)$。

  • $t$ 分布关于 0 对称,尾部比 $N(0,1)$ 厚

  • 当 $n\to\infty$ 时,$t(n)\to N(0,1)$ 用途:总体方差 $\sigma^2$ 未知时,均值 $\mu$ 的推断

  • (3) $F$ 分布

若 $U\sim\chi^2(n_1)$,$V\sim\chi^2(n_2)$,$U,V$ 独立,则 $F=\frac{U/n_1}{V/n_2}\sim F(n_1,n_2)$。

用途:两个正态总体方差比 $\sigma_1^2/\sigma_2^2$ 的推断 性质:若 $F\sim F(n_1,n_2)$,则 $1/F\sim F(n_2,n_1)$

  • $F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2,n_1)}$

5.3 正态总体下的重要结论(必须熟记!)

设 $X_1,\ldots,X_n$ 独立同分布且都服从 $N(\mu,\sigma^2)$,则:

结论 分布 用途
$\bar{X}$ $N(\mu,\sigma^2/n)$ 均值分布
$\frac{(n-1)S^2}{\sigma^2}$ $\chi^2(n-1)$ 方差推断
$\bar{X}$ 与 $S^2$ 相互独立
$\frac{\bar{X}-\mu}{S/\sqrt{n}}$ $t(n-1)$ $\sigma$ 未知时均值推断

两正态总体:$X_1,\ldots,X_{n_1}$ 独立同分布且都服从 $N(\mu_1,\sigma_1^2)$,$Y_1,\ldots,Y_{n_2}$ 独立同分布且都服从 $N(\mu_2,\sigma_2^2)$,两样本独立。

  • 方差已知时均值差:$\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)$
  • 方差未知但相等($\sigma_1^2=\sigma_2^2=\sigma^2$)时: $$ \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2) $$ 其中 $$ S_p^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} $$ 为合并样本方差
  • 方差比:$\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)$

六、参数估计与假设检验

这一章先记一句话:我们不知道总体参数,只能用样本去估计和检验。

6.1 点估计

矩估计法

思想:总体矩 = 样本矩,有几个参数就列几个方程。

步骤

  1. 写出总体矩 $E(X),E(X^2),\ldots$ 用参数表示
  2. 写出样本矩 $A_1=\bar{X},A_2=\frac{1}{n}\sum X_i^2,\ldots$
  3. 令总体矩 = 样本矩
  4. 解出参数

例题 6-1:$X\sim U(0,\theta)$,求 $\theta$ 的矩估计。

:$E(X)=\theta/2$。令 $\theta/2=\bar{X}$,得 $\hat{\theta}=2\bar{X}$。

例题 6-2:$X\sim N(\mu,\sigma^2)$,求 $\mu,\sigma^2$ 的矩估计。

: 先用一阶矩:$E(X)=\bar{X}$,得到 $$ \hat{\mu}=\bar{X} $$

再用二阶矩:令 $$ E(X^2)=\frac{1}{n}\sum X_i^2 $$ 且 $$ E(X^2)=D(X)+[E(X)]^2=\sigma^2+\mu^2 $$ 代入可得 $$ \hat{\sigma}^2 =\frac{1}{n}\sum X_i^2-\bar{X}^2 =\frac{1}{n}\sum(X_i-\bar{X})^2 $$ 这是有偏估计。

最大似然估计

思想:已观察到样本 $x_1,\ldots,x_n$,选择使得这些样本出现概率最大的 $\theta$。

矩估计像“用样本平均值去对齐总体平均值”,最大似然估计则像破案:现在现场已经留下这些样本痕迹,哪个参数最可能制造出这些痕迹,就选哪个参数。

步骤

  1. 写出似然函数 $L(\theta)=\prod f(x_i;\theta)$(连续)或 $\prod P(X=x_i;\theta)$(离散)
  2. 取对数 $\ln L(\theta)$
  3. 求导 $\frac{d\ln L}{d\theta}=0$(多参数时求偏导)
  4. 解出 $\hat{\theta}$
  5. 检查最大值或参数边界

例题 6-3:$X\sim Exp(\lambda)$,样本 $x_1,\ldots,x_n$,求 $\lambda$ 的最大似然估计。

:$L(\lambda)=\prod_{i=1}^n\lambda e^{-\lambda x_i}=\lambda^n e^{-\lambda\sum x_i}$。 $\ln L=n\ln\lambda-\lambda\sum x_i$。 $\frac{d\ln L}{d\lambda}=\frac{n}{\lambda}-\sum x_i=0$,得 $\hat{\lambda}=\frac{n}{\sum x_i}=\frac{1}{\bar{x}}$。

例题 6-4:$X\sim N(\mu,\sigma^2)$,求 $\mu,\sigma^2$ 的最大似然估计。

:$L=\prod\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}=(2\pi\sigma^2)^{-n/2}\exp!\left[-\frac{\sum(x_i-\mu)^2}{2\sigma^2}\right]$。 $\ln L=-\frac{n}{2}\ln(2\pi)-\frac{n}{2}\ln\sigma^2-\frac{\sum(x_i-\mu)^2}{2\sigma^2}$。 求偏导得 $\hat{\mu}=\bar{x}$,$\hat{\sigma}^2=\frac{1}{n}\sum(x_i-\bar{x})^2$。

例题 6-5(最大似然估计的不变性):$X\sim P(\lambda)$,已求得 $\hat{\lambda}=\bar{x}$。求 $P(X=0)=e^{-\lambda}$ 的最大似然估计。

:由最大似然估计的不变性,$\widehat{P(X=0)}=e^{-\hat{\lambda}}=e^{-\bar{x}}$。

估计量的评价标准

无偏性:$E(\hat{\theta})=\theta$。如 $\bar{X}$ 是 $\mu$ 的无偏估计,$S^2$ 是 $\sigma^2$ 的无偏估计。 有效性:在无偏估计量中,方差越小越有效。例如 $n$ 越大,$\bar{X}$ 越有效。 相合性(一致性):$\hat{\theta}_n \xrightarrow{P} \theta$($n\to\infty$ 时估计量趋近真值)。

例题 6-6:证明 $\hat{\sigma}^2=\frac{1}{n}\sum(X_i-\bar{X})^2$ 不是 $\sigma^2$ 的无偏估计。

:$E(\hat{\sigma}^2)=E!\left(\frac{n-1}{n}\cdot\frac{1}{n-1}\sum(X_i-\bar{X})^2\right)=\frac{n-1}{n}E(S^2)=\frac{n-1}{n}\sigma^2\neq\sigma^2$。 偏差为 $-\sigma^2/n$,当 $n\to\infty$ 时趋于 0,说明虽不是无偏但是相合的。


6.2 区间估计

区间估计给一个范围 $(\hat{\theta}_L,;\hat{\theta}_U)$,并说明置信水平 $1-\alpha$。

核心方法:构造枢轴量——含有参数 $\theta$ 且分布完全已知的统计量。

枢轴量可以理解成一把“可查表的尺子”。它里面虽然带着未知参数,但整体分布是已知的,所以我们可以先在这把尺子上圈出高概率区间,再把不等式倒回去解出参数范围。

单个正态总体均值的置信区间

条件 枢轴量 置信区间
$\sigma^2$ 已知 $Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$ $\bar{X}\pm z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$
$\sigma^2$ 未知 $T=\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$ $\bar{X}\pm t_{\alpha/2}(n-1)\cdot\frac{S}{\sqrt{n}}$

单个正态总体方差的置信区间

枢轴量 $\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)$: $$\left(\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)},;\frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\right)$$

注意上下限:$\sigma^2$ 在分母,解不等式时方向颠倒!

两正态总体均值差的置信区间

条件 枢轴量 置信区间
$\sigma_1^2,\sigma_2^2$ 已知 $Z$ $(\bar{X}-\bar{Y})\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$
$\sigma_1^2=\sigma_2^2$ 未知 $T$(合并 $S_p$) $(\bar{X}-\bar{Y})\pm t_{\alpha/2}(n_1+n_2-2)\cdot S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$

两正态总体方差比的置信区间

枢轴量 $\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1)$: $$\left(\frac{S_1^2}{S_2^2}\cdot\frac{1}{F_{\alpha/2}(n_1-1,n_2-1)},;\frac{S_1^2}{S_2^2}\cdot F_{\alpha/2}(n_2-1,n_1-1)\right)$$

例题 6-7:随机抽 16 个零件,测得 $\bar{x}=50$,$s=4$。求零件平均长度 $\mu$ 的 95% 置信区间。

:$\sigma$ 未知,用 $t$ 分布。$t_{0.025}(15)\approx2.131$。 区间:$50\pm2.131\times\frac{4}{\sqrt{16}}=50\pm2.131\times1=50\pm2.131=(47.87,;52.13)$。


6.3 假设检验

基本概念

先假定原假设 $H_0$ 成立,然后看样本结果是否"过于反常"。如果太反常,就拒绝 $H_0$。

原假设 $H_0$:默认/保守假设,通常含等号(如 $H_0:\mu=\mu_0$) 备择假设 $H_1$:想验证的方向($\neq$、$>$、$<$) 显著性水平 $\alpha$:犯第一类错误(弃真)的概率上限。常见 $0.05$、$0.01$ 第一类错误:$H_0$ 真却被拒绝(概率 $\leq\alpha$) 第二类错误:$H_0$ 假却没被拒绝(概率记为 $\beta$) 检验功效:$1-\beta$,即正确拒绝错误 $H_0$ 的概率

$H_0$ 为真 $H_0$ 为假
拒绝 $H_0$ 第一类错误($\alpha$) 正确决策($1-\beta$)
不拒绝 $H_0$ 正确决策($1-\alpha$) 第二类错误($\beta$)

p 值法(补充)

p 值:在 $H_0$ 成立下,观察到比当前样本更极端结果的概率。

  • 若 $p\text{ 值} < \alpha$,拒绝 $H_0$
  • 若 $p\text{ 值} \geq \alpha$,不拒绝 $H_0$

p 值越小,反对 $H_0$ 的证据越强。

检验的一般步骤

  1. 写 $H_0$ 和 $H_1$
  2. 选择检验统计量
  3. 在 $H_0$ 成立下确定统计量分布
  4. 根据 $\alpha$ 和 $H_1$ 确定拒绝域
  5. 代入样本计算统计量值
  6. 判断是否落入拒绝域
  7. 写结论("拒绝 $H_0$"或"不拒绝 $H_0$")

单个正态总体均值的检验

条件 统计量 $H_1:\mu\neq\mu_0$ $H_1:\mu>\mu_0$ $H_1:\mu<\mu_0$
$\sigma^2$ 已知 $Z=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}$ $\vert Z\vert >z_{\alpha/2}$ $Z>z_\alpha$ $Z<-z_\alpha$
$\sigma^2$ 未知 $T=\frac{\bar{X}-\mu_0}{S/\sqrt{n}}$ $\vert T\vert >t_{\alpha/2}(n-1)$ $T>t_\alpha(n-1)$ $T<-t_\alpha(n-1)$

单个正态总体方差的检验

统计量 $\chi^2=\frac{(n-1)S^2}{\sigma_0^2}\sim\chi^2(n-1)$。

$H_1$ 拒绝域
$\sigma^2\neq\sigma_0^2$ $\chi^2<\chi^2_{1-\alpha/2}(n-1)$ 或 $\chi^2>\chi^2_{\alpha/2}(n-1)$
$\sigma^2>\sigma_0^2$ $\chi^2>\chi^2_\alpha(n-1)$
$\sigma^2<\sigma_0^2$ $\chi^2<\chi^2_{1-\alpha}(n-1)$

两正态总体均值差的检验

条件 统计量 分布
$\sigma_1^2,\sigma_2^2$ 已知 $Z=\frac{(\bar{X}-\bar{Y})-\delta_0}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$ $N(0,1)$
$\sigma_1^2=\sigma_2^2$ 未知 $T=\frac{(\bar{X}-\bar{Y})-\delta_0}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$ $t(n_1+n_2-2)$

其中 $S_p^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}$。

两正态总体方差比的检验

$H_0:\sigma_1^2=\sigma_2^2$,统计量 $F=S_1^2/S_2^2\sim F(n_1-1,n_2-1)$。

$H_1$ 拒绝域
$\sigma_1^2\neq\sigma_2^2$ $F<F_{1-\alpha/2}(n_1-1,n_2-1)$ 或 $F>F_{\alpha/2}(n_1-1,n_2-1)$
$\sigma_1^2>\sigma_2^2$ $F>F_\alpha(n_1-1,n_2-1)$
$\sigma_1^2<\sigma_2^2$ $F<F_{1-\alpha}(n_1-1,n_2-1)$

例题 6-8:某厂宣称产品平均寿命 1000h。抽 25 件测得 $\bar{x}=980$,$s=65$。在 $\alpha=0.05$ 下,是否认为平均寿命低于宣称值?

:$H_0:\mu=1000$,$H_1:\mu<1000$(左侧检验)。$\sigma$ 未知,用 $t$ 检验。 $T=\frac{980-1000}{65/\sqrt{25}}=\frac{-20}{13}=-1.538$。 $t_{0.05}(24)\approx1.711$。拒绝域 $T<-1.711$。 $-1.538>-1.711$,不落入拒绝域,故不拒绝 $H_0$,即没有充分证据认为平均寿命低于 1000h。


七、备考总结

这一章先记一句话:做题先判断题型,再选工具,最后代公式计算。

7.1 题型-方法总表

A. 事件概率类

题型 关键词 方法
事件关系表达 至少、至多、恰有、都不、不全 集合运算或列 8 种状态
并交补概率 $P(A),P(B),P(AB)$ 容斥公式、补事件、文氏图
古典概型 等可能、有限样本点 有利数 / 总数
几何概型 随机取点、会面 测度比
抽球 有放回、无放回 有放回用乘法,无放回用组合/排列
条件概率 已知、在……条件下 $P(A\mid B)=P(AB)/P(B)$
全概率 多来源、多路径 $\sum P(B_i)P(A\mid B_i)$
贝叶斯 已知结果反推来源 后验 = 路径概率 / 总概率
独立性 互不影响 $P(AB)=P(A)P(B)$

B. 一维随机变量类

题型 关键词 方法
求分布律 X 的可能值有限 列值、求概率、检查和=1
分布律→分布函数 离散型 X 累加概率,阶梯函数
密度求参数 $f(x)=c\cdots$ 总积分=1
密度求概率 连续型区间概率 积分
密度→分布函数 $F(x)=P(X\leq x)$ 从 $-\infty$ 积到 $x$,分段
分布函数→密度 连续型 求导
正态概率 $N(\mu,\sigma^2)$ 标准化→查表
函数分布 $Y=g(X)$ 分布函数法或合并概率

C. 二维随机变量类

题型 关键词 方法
联合表求边缘 离散二维表 行和、列和
条件分布 已知 X 或 Y 某格 / 行和或列和
离散独立 联合表 每格是否=边缘乘积
联合密度求常数 $f(x,y)=c\cdots$ 二重积分=1
联合密度求边缘 只关心 X 或 Y 积掉另一个变量
联合密度求概率 $P((X,Y)\in D)$ 画区域,二重积分
连续独立 $f(x,y)$ 是否=$f_X f_Y$
$X+Y$ 分布 和变量 卷积
最大/最小 $\max$/$\min$ 分布函数法+反事件

D. 数字特征类

题型 方法
求 $E(X)$ 离散求和,连续积分
求 $E[g(X)]$ 不必先求 Y 分布,直接代函数
求 $D(X)$ $E(X^2)-[E(X)]^2$
求 $Cov(X,Y)$ $E(XY)-E(X)E(Y)$
求相关系数 $Cov$ / 标准差乘积
判断不相关 $Cov=0$
判断独立 回联合分布,不看 $Cov$

E. 极限定理类

题型 方法
概率下界估计 切比雪夫不等式
样本均值稳定 大数定律
样本和近似正态 中心极限定理
二项分布近似 正态近似+连续性修正

F. 数理统计类

题型 方法
判断统计量 是否只含样本、不含未知参数
样本均值分布 $\bar{X}\sim N(\mu,\sigma^2/n)$
样本方差分布 $(n-1)S^2/\sigma^2\sim\chi^2(n-1)$
$\sigma$ 未知均值推断 $t$ 分布
方差推断 $\chi^2$ 分布
两方差比 $F$ 分布
矩估计 总体矩 = 样本矩
最大似然 写 $L$→取 $\ln$→求导
无偏性 求估计量期望
置信区间 构造枢轴量
假设检验 $H_0$ 下看统计量是否入拒绝域

7.2 核心底层方法十二条

  1. 先判断对象层级:事件题?一维变量题?二维变量题?数字特征题?统计推断题?
  2. 事件题:画文氏图或列状态。两个事件画四块,三个事件列八种。
  3. 古典概型:分母比分子更重要。注意是否等可能、是否考虑顺序、是否有放回、是否计数方式一致。
  4. 条件概率:样本空间变了。$P(A\mid B)$ 是在 $B$ 这个新世界里 $A$ 占多少。
  5. 全概率:正向分路径。多来源→先设来源 $B_i$,$P(A)=$ 所有路径概率相加。
  6. 贝叶斯:反向追来源。原因→结果用全概率,结果→原因用贝叶斯。
  7. 分布函数永远是 $F(x)=P(X\leq x)$。函数分布题更要靠这个定义。
  8. 密度不是概率,积分才是概率。$f(a)$ 不是 $P(X=a)$,概率来自面积。
  9. 二维题的生命线是画区域。画有效区域→画事件区域→取交集→选积分顺序→写上下限。
  10. 期望是加权平均,方差是波动。方差优先用 $E(X^2)-[E(X)]^2$。
  11. 独立性统一逻辑:事件 $P(AB)=P(A)P(B)$,离散 $p_{ij}=p_i p_j$,连续 $f(x,y)=f_X f_Y$。
  12. 统计推断的本质是"用样本反推总体"。前半概率论:总体→样本;后半数理统计:样本→总体。

7.3 最易混淆的知识点辨析

易混淆对 区分要点
互不相容 vs 独立 互不相容 = 不能同时发生;独立 = 互不影响。非零概率事件互不相容则一定不独立
$P(A\mid B)$ vs $P(B\mid A)$ 一般不相等!分母是条件事件,分子是两者同时发生
二项 vs 超几何 有放回/独立重复→二项;无放回→超几何。$N$ 大 $n$ 小时超几何近似二项
泊松 vs 指数 泊松数"次数"(单位时间发生 $k$ 次);指数数"时间"(等待下一次的时间)
分布函数端点 离散型注意 $P(a\leq X\leq b)=F(b)-F(a-)$;连续型端点无所谓
样本方差分母 $S^2$ 分母是 $n-1$(无偏),$\frac{1}{n}\sum(X_i-\bar{X})^2$ 有偏
不相关 vs 独立 独立⇒不相关;不相关⇏独立(可能有非线性关系)。例外:二维正态下等价
$t$ / $\chi^2$ / $F$ 用途 $t$→均值推断($\sigma$ 未知);$\chi^2$→方差推断;$F$→两方差比
置信区间 vs 假设检验 本质相通:双侧 $(1-\alpha)$ 置信区间等价于水平 $\alpha$ 的双侧检验接受域
矩估计 vs 最大似然 矩估计简单但未必最优;最大似然通常更有效且有不变性,但需要解方程

7.4 复习建议与总纲

复习优先级

  • 第一优先级(核心贯通):随机事件概率→一维随机变量分布→二维随机变量分布→期望方差→常见分布
  • 第二优先级(题型固定):大数定律、中心极限定理→统计量和抽样分布
  • 第三优先级(套路最强):参数估计→假设检验(关键是识别"用 Z / t / $\chi^2$ / F 哪个分布")

最简洁的总纲

先把随机现象变成事件,再把事件变成随机变量,再用分布描述随机变量,再用期望方差概括分布,再用样本反推总体。

做题五判断

  1. 问的是事件还是变量?
  2. 是离散还是连续?
  3. 是一维还是二维?
  4. 是求概率、求分布、求数字特征,还是做统计推断?
  5. 已知分布求概率,还是已知样本估参数?

只要把这五个判断做对,概率论的大多数题就不是"背公式",而是"选择正确工具"。