概率论笔记

这份笔记按初学者最容易上手的顺序整理：

第一章：随机事件及其概率

第二章：一维随机变量及其分布

第三章：二维随机变量及其分布

第四章：随机变量的数字特征与极限定理

第五章：统计量与常用抽样分布

第六章：参数估计

第七章：假设检验

后面还有若干学期期末试卷试题分析。

阅读方式建议：先看“这一节先记住什么”，再看公式，最后做例题。

一、概率论底层逻辑与随机事件及其概率

这一章先记一句话：先把随机现象写成事件，再用集合关系做概率计算。

1.1 概率论研究的四层结构

概率论的核心不是"套公式"，而是研究：

在随机现象中，如何用数学语言描述事件、变量、分布，以及它们之间的关系。

可以把整门课拆成四层：

第一层：事件层 — 研究"某件事发生不发生"。例如袋子里抽球，事件 A 表示"抽到红球"；事件 B 表示"抽到偶数"。研究的是：A 是否发生？A 和 B 是否同时发生？A 发生时 B 的概率是多少？A、B 是否独立？对应内容：随机事件、概率、条件概率、全概率、贝叶斯、独立性。

第二层：随机变量层 — 事件太零散，所以把随机结果数值化。例如掷骰子，X 表示点数；抽产品，X 表示次品个数；测寿命，X 表示使用时间。这时研究：X 取某个值的概率？X 落在某个区间的概率？X 的分布函数？X 的密度函数？对应内容：离散/连续型随机变量、分布函数、概率密度、常见分布。

第三层：多变量关系层 — 现实中经常多个变量一起变化。例如 X 表示身高，Y 表示体重。核心问题：联合分布？边缘分布？条件分布？是否独立？Z=X+Y 的分布？对应内容：二维随机变量、联合/边缘/条件分布、独立性、函数分布。

第四层：统计推断层 — 概率论前半假设"分布已知"求概率/期望/方差，数理统计反过来：分布或参数未知，只能从样本推测总体。对应内容：样本、统计量、抽样分布、参数估计、置信区间、假设检验。

1.2 随机试验、样本空间与随机事件

先记一句话

随机试验必须满足三个条件：可以在相同条件下重复；所有可能结果事先可知；每次具体出现哪个结果不可预知。

样本空间 $\Omega$ 是所有可能结果的集合。随机事件 $A$ 是样本空间 $\Omega$ 的子集。所以事件的本质是集合，概率运算本质是集合运算。

事件之间的关系

$A \subset B$：$A$ 发生必然导致 $B$ 发生
$A = B$：$A$ 与 $B$ 等价
$A \cup B$：$A$ 或 $B$ 发生（和事件）
$A \cap B$（简写 $AB$）：$A$ 与 $B$ 同时发生（积事件）
$A - B$：$A$ 发生但 $B$ 不发生（差事件）
$\bar{A}$：$A$ 不发生（对立事件 / 逆事件）
$AB = \varnothing$：$A$ 与 $B$ 互不相容（互斥）

对偶律（德摩根律）： $$\overline{A \cup B} = \bar{A} \cap \bar{B}, \quad \overline{A \cap B} = \bar{A} \cup \bar{B}$$

题型 1：把文字翻译成事件表达式

文字描述	事件表达式
至少一个发生	$A \cup B \cup C$
都发生	$ABC$
都不发生	$\bar{A}\bar{B}\bar{C}$
恰有一个发生	$A\bar{B}\bar{C} \cup \bar{A}B\bar{C} \cup \bar{A}\bar{B}C$
恰有两个发生	$AB\bar{C} \cup A\bar{B}C \cup \bar{A}BC$
至少两个发生	$AB\bar{C} \cup A\bar{B}C \cup \bar{A}BC \cup ABC$
至多一个发生	$\bar{A}\bar{B}\bar{C} \cup A\bar{B}\bar{C} \cup \bar{A}B\bar{C} \cup \bar{A}\bar{B}C$
不全发生	$\bar{A} \cup \bar{B} \cup \bar{C}$
不全不发生	$A \cup B \cup C$

方法：拆关键词。

"至少"：包含更多情况
"至多"：包含更少情况
"恰有"：精确数量
"不全"：对"全"的否定
"都不"：每个都取补

最稳的方法是先列举三事件 $A,B,C$ 的 8 种状态，再勾选符合题意的状态：

$$ ABC,\ AB\bar{C},\ A\bar{B}C,\ \bar{A}BC,\ A\bar{B}\bar{C},\ \bar{A}B\bar{C},\ \bar{A}\bar{B}C,\ \bar{A}\bar{B}\bar{C} $$

1.3 概率的定义与性质

概率的公理化定义

概率 $P(\cdot)$ 是定义在事件域上的实值集合函数，满足：

非负性：$P(A) \geq 0$
规范性：$P(\Omega) = 1$
可列可加性：若 $A_1, A_2, \ldots$ 两两互不相容，则 $P(\bigcup_{i=1}^{\infty}A_i) = \sum_{i=1}^{\infty}P(A_i)$

基本性质

$P(\varnothing) = 0$
$0 \leq P(A) \leq 1$
若 $A \subset B$，则 $P(A) \leq P(B)$，且 $P(B-A) = P(B) - P(A)$
$P(\bar{A}) = 1 - P(A)$
加法公式（两事件）：$P(A \cup B) = P(A) + P(B) - P(AB)$
加法公式（三事件——容斥原理）： $$P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(AB) - P(AC) - P(BC) + P(ABC)$$
一般容斥公式（n 事件）： $$P(\bigcup_{i=1}^{n}A_i) = \sum_{i=1}^{n}P(A_i) - \sum_{i<j}P(A_iA_j) + \sum_{i<j<k}P(A_iA_jA_k) - \cdots + (-1)^{n-1}P(A_1A_2\cdots A_n)$$

题型 2：已知 P(A)、P(B)、P(AB)，求并、补、差

核心公式：

$P(A \cup B) = P(A) + P(B) - P(AB)$
$P(A - B) = P(A) - P(AB)$
$P(\bar{A}B) = P(B) - P(AB)$
$P(\bar{A} \cup \bar{B}) = 1 - P(AB)$
$P(\bar{A}\bar{B}) = 1 - P(A \cup B)$

方法：画文氏图。将样本空间分成四块——$AB$、$A\bar{B}$、$\bar{A}B$、$\bar{A}\bar{B}$，很多题本质就是填这四块的概率。

1.4 古典概型

先记一句话

古典概型两个条件：样本点有限；每个样本点等可能。于是： $$P(A) = \frac{A \text{ 中包含的有利样本点数}}{\text{样本空间 } \Omega \text{ 中的总样本点数}}$$

常见题型：抽球、摸牌、分组、排队、生日、数字排列、骰子、产品抽检。

题型 3：抽球问题

有放回抽样：每次抽完放回，总体不变。若每次 N 种可能，抽 n 次，总样本点数 $N^n$。

无放回抽样：不考虑顺序用组合数 $C(N,n)$；考虑顺序用排列数 $A(N,n)$。

例题 3-1：袋中有 5 红 3 白共 8 个球，无放回地抽 3 个，求：(1) 恰有 2 红的概率；(2) 至少 1 红的概率。

解：(1) 总情况 $C(8,3)=56$。恰 2 红即从 5 红选 2、3 白选 1：$C(5,2)\cdot C(3,1)=10\times3=30$。$P=30/56=15/28$。 (2) 反面：全白。$C(3,3)=1$ 种。$P=1-1/56=55/56$。

题型 4：产品抽检问题

N 件产品中有 M 件次品，抽 n 件，求恰有 k 件次品的概率： $$P = \frac{C(M,k) \cdot C(N-M, n-k)}{C(N,n)}$$

这是超几何分布的雏形。

例题 4-1：一批 100 件产品中有 5 件次品，随机抽 10 件，求恰有 2 件次品的概率。

解：$P = \frac{C(5,2) \cdot C(95,8)}{C(100,10)}$。

题型 5：排列组合型概率

常见问法：排队相邻/不相邻、男女间隔、指定位置。

方法：相邻→捆绑法；不相邻→插空法；至少/至多→分类讨论或反面；顺序不重要→组合；顺序重要→排列。

例题 5-1：5 男 3 女随机排成一排，求女生全不相邻的概率。

解：总排列 $8!$。先排 5 男：$5!$，产生 6 个空位（包括两端），选 3 个放女生：$A(6,3)$。有利：$5! \times A(6,3)=120 \times 120=14400$。$P=14400/40320=5/14$。

题型 6：几何概型

当样本空间是某个几何区域且每个点等可能时： $$P(A) = \frac{A \text{ 的测度（长度/面积/体积）}}{\Omega \text{ 的测度}}$$

例题 6-1（会面问题）：两人约定 12:00-13:00 之间到达某地，先到者等 15 分钟后离开，求两人能见面的概率。

解：设两人到达时刻分别为 $x, y \in [0,60]$（分钟）。能见面等价于 $|x-y| \leq 15$。样本空间为 $60\times60$ 正方形，有利区域为 $|x-y|\leq15$ 的带状区域。$P = 1 - \frac{45^2}{60^2} = 1 - \frac{9}{16} = \frac{7}{16}$。

1.5 条件概率与乘法公式

条件概率

$$P(A \mid B) = \frac{P(AB)}{P(B)}, \quad P(B) > 0$$

底层不是"B 导致 A"，而是样本空间缩小了。原来的 $\Omega$ 被缩小成 $B$。

乘法公式

$$P(AB) = P(A)P(B \mid A) = P(B)P(A \mid B)$$ $$P(ABC) = P(A)P(B \mid A)P(C \mid AB)$$

一般地： $$P(A_1A_2\cdots A_n) = P(A_1)P(A_2|A_1)P(A_3|A_1A_2)\cdots P(A_n|A_1\cdots A_{n-1})$$

题型 7：连续阶段问题（路径概率）

甲箱抽球后放入乙箱，再从乙箱抽；机器先选择某种状态再产出产品；一个人先通过第一关再通过第二关——按时间顺序乘即可。

例题 7-1：甲箱有 4 红 1 白，乙箱有 3 红 2 白。从甲箱随机取一球放入乙箱，再从乙箱取一球，求从乙箱取出红球的概率。

解：设 $A$="从甲箱取红球"，$B$="从乙箱取红球"。$P(A)=4/5$，$P(\bar{A})=1/5$。若 A 发生，乙箱变 4 红 2 白：$P(B|A)=4/6=2/3$。若 A 不发生，乙箱变 3 红 3 白：$P(B|\bar{A})=3/6=1/2$。 $P(B)=P(A)P(B|A)+P(\bar{A})P(B|\bar{A})=\frac{4}{5}\times\frac{2}{3}+\frac{1}{5}\times\frac{1}{2}=\frac{8}{15}+\frac{1}{10}=\frac{19}{30}$。

1.6 全概率公式与贝叶斯公式

全概率公式

若 $B_1, B_2, \ldots, B_n$ 构成 $\Omega$ 的完备事件组（互不相容、并集为 $\Omega$、每个 $P(B_i)>0$），则： $$P(A) = \sum_{i=1}^{n} P(B_i) P(A \mid B_i)$$

底层逻辑：A 可以通过不同路径发生，分路径求总概率。

贝叶斯公式

$$P(B_j \mid A) = \frac{P(B_j)P(A \mid B_j)}{\sum_{i=1}^{n} P(B_i)P(A \mid B_i)}$$

底层逻辑：全概率是"原因→结果"，贝叶斯是"结果→反推原因"。$P(B_j)$ 是先验概率，$P(B_j|A)$ 是后验概率。

题型 8：来源反推题

例题 8-1：某产品由甲、乙、丙三厂供应，占比分别为 50%、30%、20%。次品率分别为 2%、3%、4%。现随机抽一件发现是次品，求它来自甲厂的概率。

解：设 $B_1,B_2,B_3$ 分别表示来自甲、乙、丙，$A$ 表示抽到次品。 $$\begin{aligned}P(A) &= 0.5\times0.02 + 0.3\times0.03 + 0.2\times0.04 \ &= 0.01 + 0.009 + 0.008 = 0.027\end{aligned}$$ $$P(B_1\mid A) = \frac{0.5\times0.02}{0.027} = \frac{0.01}{0.027} \approx 0.370$$

题型 9：医疗检测题（假阳性陷阱）

例题 9-1：某病患病率 0.1%，检测准确率 99%（患者阳性率 99%，健康人阴性率 99%）。某人检测阳性，求他真的患病的概率。

解：$B$=患病，$\bar{B}$=不患病，$A$=检测阳性。 $P(B)=0.001$，$P(\bar{B})=0.999$，$P(A|B)=0.99$，$P(A|\bar{B})=0.01$。 $$\begin{aligned}P(A) &= 0.001\times0.99 + 0.999\times0.01 \ &= 0.00099 + 0.00999 = 0.01098\end{aligned}$$ $$P(B\mid A) = \frac{0.001\times0.99}{0.01098} \approx 0.0902$$ 只有约 9%！这就是假阳性的力量——虽然检测很准，但因为患病率极低，阳性结果中大部分其实是假阳性。

1.7 事件独立性

定义

$A$ 与 $B$ 独立 $\iff P(AB) = P(A)P(B)$。等价地（$P(B)>0$ 时）：$P(A \mid B) = P(A)$。

含义：B 发生与否，不改变 A 的概率。

多个事件的独立性

$A,B,C$ 两两独立：$P(AB)=P(A)P(B)$，$P(AC)=P(A)P(C)$，$P(BC)=P(B)P(C)$。

$A,B,C$ 相互独立：满足两两独立，且 $P(ABC)=P(A)P(B)P(C)$。

注意：两两独立不一定相互独立。

反例：掷两颗均匀骰子。设 $A$="第一颗出偶数"，$B$="第二颗出偶数"，$C$="两颗点数之和为奇数"。

可以验证： $$ P(A)=P(B)=P(C)=\frac{1}{2} $$ $$ P(AB)=P(AC)=P(BC)=\frac{1}{4} $$ 因而两两独立。

但 $$ P(ABC)=0 \ne P(A)P(B)P(C)=\frac{1}{8} $$ 所以 $A,B,C$ 两两独立，但不相互独立。

互不相容 vs 独立

互不相容：$AB=\varnothing$（不能同时发生）
独立：$P(AB)=P(A)P(B)$（互不影响）

若 $A,B$ 互不相容且 $P(A),P(B)$ 均大于 0，则一定不独立（因为一个发生意味着另一个必不发生）。

独立性的性质

若 $A$ 与 $B$ 独立，则 $A$ 与 $\bar{B}$、$\bar{A}$ 与 $B$、$\bar{A}$ 与 $\bar{B}$ 均独立。

题型 10：利用独立性求概率

例题 10-1：三个元件独立工作，每个正常工作的概率为 0.9。求：(1) 三个都正常的概率；(2) 至少一个正常的概率。

解：(1) $0.9^3=0.729$。(2) 反面：全不正常 $0.1^3=0.001$，$P=1-0.001=0.999$。

二、一维随机变量及其分布

这一章先记一句话：把“会不会发生”升级成“取什么数、落在哪个区间”。

2.1 随机变量与分布函数

随机变量的本质

随机变量是把随机试验的结果映射成实数的函数。

例如掷硬币：正面→1，反面→0。这个 $X$ 就是随机变量。它的意义是把"事件问题"变成"数值问题"。

按取值类型分为：

离散型：取有限个或可列无限个值。像数人数、数次品、数电话呼入次数。
连续型：取某个区间内的一切实数值。像测寿命、测身高、等车时间。
混合型：离散和连续混在一起，考试较少涉及。

这里最容易卡住的是：随机变量不是“变量会随机乱变”，而是你给随机结果贴上的数字标签。原来样本空间里可能写着“红球、白球、蓝球”，不方便算；贴成 $X=1,2,3$ 后，就能用函数、积分和分布来处理。

分布函数

$$F(x) = P(X \leq x), \quad x \in \mathbb{R}$$

性质：

$F(x)$ 单调不减
$0 \leq F(x) \leq 1$，且 $F(-\infty)=0$，$F(+\infty)=1$
$F(x)$ 右连续：$F(x+0)=F(x)$
$P(a < X \leq b) = F(b) - F(a)$
$P(X = a) = F(a) - F(a-0)$（即 $F$ 在 $a$ 处的跳跃度）

分布函数是随机变量最完整的描述。知道 $F(x)$ 就知道 $X$ 落在任意区间的概率。

可以把 $F(x)$ 想象成一把从左往右推的扫帚：扫到位置 $x$ 时，左边已经被扫进去的概率总量就是 $P(X\leq x)$。离散型是一格一格跳着增加，连续型是平滑地一点点增加。

题型 11：判断某函数是否为分布函数

检查四条：单调不减；右连续；$F(-\infty)=0$，$F(+\infty)=1$；取值在 $[0,1]$。分段函数要特别检查分界点处。

2.2 离散型随机变量

分布律（概率质量函数）

$X$ 取 $x_1, x_2, \ldots$，对应概率 $P(X=x_i)=p_i$。要求：$p_i \geq 0$，$\sum p_i = 1$。

由分布律求分布函数

设 $x_1 < x_2 < \cdots < x_n$，概率 $p_1, p_2, \ldots, p_n$，则： $$F(x) = \begin{cases} 0, & x < x_1 \ p_1, & x_1 \leq x < x_2 \ p_1+p_2, & x_2 \leq x < x_3 \ \cdots & \cdots \ 1, & x \geq x_n \end{cases}$$

分布函数呈阶梯形，在每个取值点发生跳跃，跳跃高度就是该点的概率。

2.3 常见离散分布

(1) 两点分布 / 0-1 分布 $B(1,p)$

$$P(X=1)=p,\quad P(X=0)=1-p$$ $$E(X)=p,\quad D(X)=p(1-p)$$

应用：一次试验成功/失败、产品合格/不合格、事件发生/不发生。

它是最小的随机变量模型：世界只剩两个出口，成功记 1，失败记 0。后面的二项分布其实就是把这个小开关重复按很多次。

(2) 二项分布 $B(n,p)$

$n$ 次独立重复试验，每次成功概率 $p$，$X$ 表示成功次数。

这类题的直觉是：做 $n$ 次完全同样的试验，每次只有成败两个结果，最后数一共成功了几次。公式里的 $C(n,k)$ 负责选出“哪 $k$ 次成功”，$p^k(1-p)^{n-k}$ 负责这一种具体排列的概率。

$$P(X=k) = C(n,k) , p^k (1-p)^{n-k}, \quad k=0,1,\ldots,n$$ $$E(X)=np,\quad D(X)=np(1-p)$$

可加性：若 $X\sim B(n_1,p)$，$Y\sim B(n_2,p)$ 且独立，则 $X+Y\sim B(n_1+n_2,p)$。

例题 2-1：某射手命中率 0.8，独立射击 5 次。求：(1) 恰命中 4 次的概率；(2) 至少命中 3 次的概率。

解：(1) $C(5,4)\times0.8^4\times0.2=5\times0.4096\times0.2=0.4096$。 (2) $$ \begin{aligned} P(X\geq 3) &=P(X=3)+P(X=4)+P(X=5) \ &=C(5,3)\times0.8^3\times0.2^2+0.4096+0.8^5 \ &=10\times0.512\times0.04+0.4096+0.32768 \ &=0.2048+0.4096+0.32768=0.94208 \end{aligned} $$

(3) 泊松分布 $P(\lambda)$

$$P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k=0,1,2,\ldots$$ $$E(X)=\lambda,\quad D(X)=\lambda$$

应用：单位时间内电话呼入次数、单位面积缺陷数、稀有事件计数。

泊松分布像在一条时间线上数“随机掉下来的点”。你不关心哪一秒掉，只关心这一分钟总共掉了几个。它适合描述次数，而且通常是大量机会中小概率发生的事。

泊松定理（二项分布的泊松近似）：若 $n\to\infty$，$p\to0$ 且 $np=\lambda$ 恒定，则 $B(n,p) \approx P(\lambda)$。实际中 $n\geq 20$，$p\leq 0.05$（或 $n\geq 100$，$np\leq 10$）时近似效果很好。

可加性：若 $X\sim P(\lambda_1)$，$Y\sim P(\lambda_2)$ 且独立，则 $X+Y\sim P(\lambda_1+\lambda_2)$。

例题 2-2：某电话交换台平均每分钟接到 2 次呼叫。求一分钟内：(1) 恰好 0 次的概率；(2) 至少 3 次的概率。

解：$X\sim P(2)$。(1) $P(X=0)=e^{-2}\approx0.1353$。 (2) $P(X\geq 3)=1-P(X=0)-P(X=1)-P(X=2)=1-e^{-2}-2e^{-2}-2e^{-2}=1-5e^{-2}\approx0.3233$。

(4) 超几何分布 $H(N,M,n)$

$N$ 个总体含 $M$ 个成功对象，不放回抽 $n$ 个，$X$ 表示成功个数。

超几何分布和二项分布最关键的差别是：抽走一个就少一个。袋子里的结构会变，所以每次试验不再完全独立。凡是题目出现“不放回”“有限总体抽样”，脑子里先亮起超几何。

$$P(X=k) = \frac{C(M,k),C(N-M,n-k)}{C(N,n)}, \quad k=\max(0,n+M-N),\ldots,\min(n,M)$$ $$E(X)=n\cdot\frac{M}{N},\quad D(X)=n\cdot\frac{M}{N}\cdot\frac{N-M}{N}\cdot\frac{N-n}{N-1}$$

与二项分布区别：有放回/独立重复→二项；无放回/总体有限→超几何。当 $N$ 很大而 $n/N$ 很小时，超几何近似为二项。

(5) 几何分布 $Ge(p)$

独立重复试验，每次成功概率 $p$，$X$ 表示首次成功所需的试验次数。

$$P(X=k) = (1-p)^{k-1}p, \quad k=1,2,\ldots$$ $$E(X)=\frac{1}{p},\quad D(X)=\frac{1-p}{p^2}$$

无记忆性：$P(X > m+n \mid X > m) = P(X > n)$。

几何分布数的是“第一次成功前等了多久”。它像一直刷卡进门：前面失败多少次，不会改变下一次刷成功的概率，所以才有无记忆性。

例题 2-3：某射手命中率 0.3，求他首次命中发生在第 4 次射击的概率。

解：$P(X=4)=(1-0.3)^3\times0.3=0.7^3\times0.3=0.1029$。

2.4 连续型随机变量

概率密度函数

若存在非负函数 $f(x)$ 使得 $F(x)=\int_{-\infty}^{x}f(t)dt$，则 $X$ 为连续型，$f(x)$ 为密度函数。

性质：

$f(x) \geq 0$
$\int_{-\infty}^{+\infty}f(x)dx = 1$
$P(a < X \leq b) = \int_a^b f(x)dx$
$P(X=a)=0$（单点概率为 0）
在 $f(x)$ 的连续点处：$F'(x)=f(x)$

关键认知：密度 $f(x)$ 不是概率，积分才是概率。$f(x)$ 可以大于 1（只要积分=1 即可）。

连续型随机变量里，单独一个点薄得没有面积，所以 $P(X=a)=0$。真正有概率的是一段区间，像看地图上某条带状区域的面积，而不是盯着一根没有宽度的线。

题型 12：由密度求参数、概率、分布函数

例题 2-4：设 $X$ 的密度为

$$ f(x)= \begin{cases} cx^2, & 0 < x < 1,\\ 0, & \text{其他}. \end{cases} $$

求：(1) $c$；(2) $P(0.3<X<0.7)$；(3) $F(x)$。

解：

$$ \int_0^1 cx^2 dx = c\cdot\frac{1}{3}=1 \implies c=3. $$

$$ P(0.3<X<0.7)=\int_{0.3}^{0.7}3x^2 dx=[x^3]_{0.3}^{0.7}=0.343-0.027=0.316. $$

$$ F(x)= \begin{cases} 0, & x<0,\\ x^3, & 0\leq x<1,\\ 1, & x\geq1. \end{cases} $$

2.5 常见连续分布

(1) 均匀分布 $U(a,b)$

$$ f(x)=\frac{1}{b-a},\quad a<x<b; \qquad F(x)= \begin{cases} 0, & x<a,\\ \frac{x-a}{b-a}, & a\leq x<b,\\ 1, & x\geq b. \end{cases} $$ $$E(X)=\frac{a+b}{2},\quad D(X)=\frac{(b-a)^2}{12}$$

例题 2-5：$X\sim U(0,10)$，求 $P(3<X<7)$ 和 $P(|X-5|>2)$。

解：$P(3<X<7)=\frac{7-3}{10}=0.4$。$P(|X-5|>2)=P(X<3 \text{ 或 } X>7)=\frac{3}{10}+\frac{3}{10}=0.6$。

(2) 指数分布 $Exp(\lambda)$

$$f(x)=\lambda e^{-\lambda x},; x>0; \quad F(x)=1-e^{-\lambda x},; x>0$$ $$E(X)=\frac{1}{\lambda},\quad D(X)=\frac{1}{\lambda^2}$$

应用：等待时间、寿命、事件间隔。

无记忆性：$P(X>s+t\mid X>s)=P(X>t)$——已经等了 $s$ 时间后，还需等 $t$ 时间的概率与已等时长无关。在连续分布中，指数分布是唯一具有无记忆性的分布。

指数分布可以理解成连续版的“等第一次成功”。比如等下一通电话、等下一次故障。它不问你已经等了多久，只问从现在重新开始还要等多久。

例题 2-6：某电子元件寿命 $X\sim Exp(1/1000)$（平均寿命 1000h）。求：(1) 寿命超过 1000h 的概率；(2) 已知已工作 1000h，再工作 1000h 的概率。

解：(1) $P(X>1000)=e^{-1000/1000}=e^{-1}\approx0.3679$。 (2) 由无记忆性：$P(X>2000\mid X>1000)=P(X>1000)=e^{-1}\approx0.3679$。

(3) 正态分布 $N(\mu,\sigma^2)$

$$f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp!\left[-\frac{(x-\mu)^2}{2\sigma^2}\right],\quad x\in\mathbb{R}$$ $$E(X)=\mu,\quad D(X)=\sigma^2$$

标准正态分布 $N(0,1)$：密度 $\phi(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}$，分布函数 $\Phi(x)$。

标准正态化：若 $X\sim N(\mu,\sigma^2)$，则 $Z=\frac{X-\mu}{\sigma}\sim N(0,1)$。

正态概率计算三步：标准化→查表→做差（或和）。

正态分布的核心动作是“搬到标准尺上”。不同题里的平均值和波动尺度不一样，但经过 $Z=\frac{X-\mu}{\sigma}$ 标准化后，都变成同一张标准正态表。查表不是另一个知识点，而是把各种正态题统一到同一把尺子上。

例题 2-7：$X\sim N(70,10^2)$，求 $P(60<X<85)$。

解：$Z_1=\frac{60-70}{10}=-1$，$Z_2=\frac{85-70}{10}=1.5$。 $P(60<X<85)=\Phi(1.5)-\Phi(-1)=\Phi(1.5)-(1-\Phi(1))$。查表 $\Phi(1.5)\approx0.9332$，$\Phi(1)\approx0.8413$。 $P=0.9332-(1-0.8413)=0.9332-0.1587=0.7745$。

正态分布的重要性质：

线性性：若 $X\sim N(\mu,\sigma^2)$，则 $aX+b\sim N(a\mu+b,;a^2\sigma^2)$
可加性：若 $X\sim N(\mu_1,\sigma_1^2)$，$Y\sim N(\mu_2,\sigma_2^2)$ 且独立，则 $X+Y\sim N(\mu_1+\mu_2,;\sigma_1^2+\sigma_2^2)$
$3\sigma$ 原则：$P(|X-\mu|<3\sigma)\approx 0.9973$
(4) $\Gamma$ 分布（补充）

指数分布是 $\Gamma$ 分布的特例。若 $X\sim \Gamma(\alpha,\lambda)$： $$f(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},; x>0,;\alpha>0,;\lambda>0$$ $$E(X)=\frac{\alpha}{\lambda},\quad D(X)=\frac{\alpha}{\lambda^2}$$

当 $\alpha=1$ 时退化为指数分布；当 $\alpha=n/2,\lambda=1/2$ 时退化为 $\chi^2(n)$。

2.6 随机变量函数的分布

离散型函数

若 $Y=g(X)$，$X$ 离散，方法：列出 $X$ 所有取值→计算对应 $Y$→合并相同 $Y$ 的概率。

核心：函数映射可能多对一，要合并概率。

例题 2-8：$X$ 取 $-2,-1,0,1,2$ 各概率 0.2。求 $Y=X^2$ 的分布律。

解：$Y$ 取 $0,1,4$。$P(Y=0)=P(X=0)=0.2$；$P(Y=1)=P(X=-1)+P(X=1)=0.4$；$P(Y=4)=P(X=-2)+P(X=2)=0.4$。

连续型函数——分布函数法

求 $Y=g(X)$ 的分布，用分布函数法（万能方法）：

$F_Y(y)=P(Y\leq y)=P(g(X)\leq y)$
将不等式 $g(X)\leq y$ 转化为关于 $X$ 的区间
代入 $F_X$ 或积分
对 $y$ 求导得 $f_Y(y)$

例题 2-9：$X\sim U(0,1)$，$Y=-2\ln X$，求 $Y$ 的分布。

解：$F_Y(y)=P(-2\ln X\leq y)=P(\ln X\geq -y/2)=P(X\geq e^{-y/2})=1-e^{-y/2}$（$y>0$）。 $f_Y(y)=F_Y'(y)=\frac{1}{2}e^{-y/2}$（$y>0$），即 $Y\sim Exp(1/2)$。

线性变换：$Y=aX+b$，若 $a>0$，$f_Y(y)=\frac{1}{|a|}f_X(\frac{y-b}{a})$。特别地，$f_Y(y)=\frac{1}{|a|}f_X(\frac{y-b}{a})$ 对 $a\neq 0$ 均成立。

三、二维随机变量及其分布

这一章先记一句话：两个变量一起看，核心是“联合、边缘、条件、独立”。

3.1 联合分布函数

$$F(x,y)=P(X\leq x,; Y\leq y)$$

描述 $(X,Y)$ 同时落在左下角区域 $(-\infty,x]\times(-\infty,y]$ 的概率。

性质：

$F(-\infty,y)=F(x,-\infty)=0$，$F(+\infty,+\infty)=1$
$F(x,y)$ 对每个变量单调不减且右连续
矩形概率：$P(a<X\leq b,;c<Y\leq d)=F(b,d)-F(a,d)-F(b,c)+F(a,c)$

3.2 二维离散型随机变量

联合分布律

$$P(X=x_i,; Y=y_j)=p_{ij}, \quad p_{ij}\geq 0,; \sum_i\sum_j p_{ij}=1$$

边缘分布

$$P(X=x_i)=\sum_j p_{ij}=p_{i\cdot} \quad (\text{行和})$$ $$P(Y=y_j)=\sum_i p_{ij}=p_{\cdot j} \quad (\text{列和})$$

条件分布

$$P(X=x_i\mid Y=y_j)=\frac{p_{ij}}{p_{\cdot j}},\quad P(Y=y_j\mid X=x_i)=\frac{p_{ij}}{p_{i\cdot}}$$

独立性判定

$X$ 与 $Y$ 独立 $\iff$ 对所有 $i,j$ 有 $p_{ij}=p_{i\cdot}\cdot p_{\cdot j}$。只要有一个格子不满足，就不独立。

例题 3-1：已知 $(X,Y)$ 联合分布律如下，判断 $X,Y$ 是否独立。

X\Y	0	1
0	0.3	0.2
1	0.2	0.3

解：边缘：$P(X=0)=0.5$，$P(X=1)=0.5$；$P(Y=0)=0.5$，$P(Y=1)=0.5$。检查：$p_{00}=0.3$ vs $0.5\times0.5=0.25$，不等。故 $X,Y$ 不独立。

3.3 二维连续型随机变量

联合密度

$f(x,y)\geq 0$，$\iint_{\mathbb{R}^2}f(x,y)dxdy=1$。区域概率： $$P((X,Y)\in D)=\iint_D f(x,y)dxdy$$

边缘密度

$$f_X(x)=\int_{-\infty}^{+\infty}f(x,y)dy,\quad f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)dx$$

条件密度

$$f_{Y\mid X}(y\mid x)=\frac{f(x,y)}{f_X(x)},\quad f_{X\mid Y}(x\mid y)=\frac{f(x,y)}{f_Y(y)}$$

独立性判定

$X$ 与 $Y$ 独立 $\iff$ 对所有 $x,y$ 有 $f(x,y)=f_X(x)f_Y(y)$。

快速判断技巧：

联合密度的有效区域是矩形且 $f(x,y)$ 可拆成 $g(x)h(y)$ → 通常独立
有效区域不是矩形（如 $0<x<y<1$）→ 通常不独立
最终以定义为准

例题 3-2：$(X,Y)$ 的联合密度 $f(x,y)=2e^{-x}e^{-2y}$（$x>0,y>0$），其余为 0。判断 $X,Y$ 是否独立。

解：$f_X(x)=\int_0^\infty 2e^{-x}e^{-2y}dy=2e^{-x}\cdot[-\frac{1}{2}e^{-2y}]_0^\infty=e^{-x}$（$x>0$）。 $f_Y(y)=\int_0^\infty 2e^{-x}e^{-2y}dx=2e^{-2y}\cdot[-e^{-x}]_0^\infty=2e^{-2y}$（$y>0$）。 $f_X(x)f_Y(y)=e^{-x}\cdot2e^{-2y}=2e^{-x}e^{-2y}=f(x,y)$，故 $X,Y$ 独立。

例题 3-3：$(X,Y)$ 在区域 $D={0<x<1,;0<y<x}$ 上均匀分布（即 $f(x,y)=c$）。求：(1) $c$；(2) 边缘密度；(3) $P(Y<1/2)$。

解：(1) $D$ 是三角形，面积 $=1/2$，$c\cdot\frac{1}{2}=1 \implies c=2$。 (2) $f_X(x)=\int_0^x 2dy=2x$（$0<x<1$）；$f_Y(y)=\int_y^1 2dx=2(1-y)$（$0<y<1$）。 (3) $P(Y<1/2)=\int_0^{1/2}f_Y(y)dy=\int_0^{1/2}2(1-y)dy=[2y-y^2]_0^{1/2}=1-0.25=0.75$。

3.4 二维随机变量函数的分布

离散型：$Z=g(X,Y)$

枚举所有 $(x_i,y_j)$→计算 $z=g(x_i,y_j)$→合并相同 $z$ 的概率。

连续型：和的分布（卷积公式）

若 $X,Y$ 独立，$Z=X+Y$： $$f_Z(z)=\int_{-\infty}^{+\infty}f_X(x)f_Y(z-x)dx=\int_{-\infty}^{+\infty}f_X(z-y)f_Y(y)dy$$

例题 3-4：$X\sim U(0,1)$，$Y\sim U(0,1)$ 独立，求 $Z=X+Y$ 的密度。

解：

$$ f_Z(z)=\int_{\max(0,z-1)}^{\min(1,z)}1\cdot1\,dx. $$

结果为三角形分布：

$$ f_Z(z)= \begin{cases} z, & 0<z\leq1,\\ 2-z, & 1<z<2,\\ 0, & \text{其他}. \end{cases} $$

最大值与最小值

设 $X_1,\ldots,X_n$ 独立同分布，分布函数 $F(x)$。

最大值 $M=\max(X_1,\ldots,X_n)$：$F_M(x)=[F(x)]^n$
最小值 $m=\min(X_1,\ldots,X_n)$：$F_m(x)=1-[1-F(x)]^n$

例题 3-5：5 个独立同分布元件，每个寿命 $X_i\sim Exp(\lambda)$。求串联（min）和并联（max）系统的寿命分布。

解：$F(x)=1-e^{-\lambda x}$（$x>0$）。串联（min）：$F_m(x)=1-[e^{-\lambda x}]^5=1-e^{-5\lambda x}$，即 $m\sim Exp(5\lambda)$，平均寿命 $\frac{1}{5\lambda}$。并联（max）：$F_M(x)=[1-e^{-\lambda x}]^5$。平均寿命比单个元件长。

商的分布与瑞利分布（补充）

若 $X,Y$ 独立同分布 $N(0,\sigma^2)$，则 $R=\sqrt{X^2+Y^2}$ 服从 Rayleigh 分布（瑞利分布）： $$f_R(r)=\frac{r}{\sigma^2}e^{-r^2/(2\sigma^2)},; r>0$$

四、随机变量的数字特征与极限定理

这一章先记一句话：分布太复杂时，用期望和方差抓住平均水平与波动大小。

4.1 数学期望

定义

离散型：$E(X)=\sum x_i p_i$
连续型：$E(X)=\int_{-\infty}^{+\infty}x f(x)dx$

底层：期望是概率加权平均，是长期平均而非"一定取到的值"。

随机变量函数的期望（无需先求分布！）

一维：$E[g(X)]=\begin{cases}\sum g(x_i)p_i &\text{离散}\\int g(x)f(x)dx &\text{连续}\end{cases}$
二维：$E[g(X,Y)]=\begin{cases}\sum\sum g(x_i,y_j)p_{ij} &\text{离散}\\iint g(x,y)f(x,y)dxdy &\text{连续}\end{cases}$

期望的性质

$E(C)=C$
$E(aX+b)=aE(X)+b$
$E(X+Y)=E(X)+E(Y)$（无条件成立）
$E(XY)=E(X)E(Y)$（需要 $X,Y$ 独立，或至少不相关）

例题 4-1：$X$ 的密度为

$$ f(x)= \begin{cases} 2x, & 0 < x < 1,\\ 0, & \text{其他}. \end{cases} $$

求 $E(X)$ 和 $E(3X^2+1)$。

解：

$$ E(X)=\int_0^1 x\cdot2x dx=\int_0^1 2x^2 dx=\frac{2}{3}. $$

$$ E(3X^2+1)=\int_0^1 (3x^2+1)\cdot2x dx =\int_0^1(6x^3+2x) dx =\left[\frac{6}{4}x^4+x^2\right]_0^1 =1.5+1=2.5. $$

4.2 方差

定义与公式

$$D(X)=E[(X-E(X))^2]=E(X^2)-[E(X)]^2$$

优先用 $E(X^2)-[E(X)]^2$，比定义式简单。

方差的性质

$D(C)=0$
$D(aX+b)=a^2D(X)$（平移 $b$ 不影响波动）
若 $X,Y$ 独立：$D(X\pm Y)=D(X)+D(Y)$（注意：独立时，差也是加！）
一般情况：$D(X\pm Y)=D(X)+D(Y)\pm 2Cov(X,Y)$

标准化变量：

$$ X^{\ast}=\frac{X-E(X)}{\sqrt{D(X)}},\quad E(X^{\ast})=0,\quad D(X^{\ast})=1. $$

矩

$k$ 阶原点矩：$E(X^k)$
$k$ 阶中心矩：$E[(X-E(X))^k]$
期望是一阶原点矩，方差是二阶中心矩。

4.3 协方差与相关系数

协方差

$$Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)E(Y)$$

性质：

$Cov(X,X)=D(X)$
$Cov(aX+b,;cY+d)=ac,Cov(X,Y)$
$Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)$
若 $X,Y$ 独立，则 $Cov(X,Y)=0$（反之不成立！）

独立、不相关、相关的关系

$$\text{独立} ;\Longrightarrow; \text{不相关（}Cov=0\text{）}$$

但"不相关"不一定"独立"（可能有非线性关系）。例外：若 $(X,Y)$ 服从二维正态分布，则不相关 $\iff$ 独立。

例题 4-2：$X\sim N(0,1)$，$Y=X^2$。求 $Cov(X,Y)$，判断是否独立。

解：$Cov(X,Y)=E(X\cdot X^2)-E(X)E(X^2)=E(X^3)-0\cdot E(X^2)$。$X\sim N(0,1)$ 的奇数阶矩均为 0，故 $Cov=0$。但 $Y=X^2$ 显然 $X,Y$ 不独立（$Y$ 完全由 $X$ 决定）。这说明"不相关 $\neq$ 独立"。

4.4 常见分布的数字特征汇总

分布	记号	$E(X)$	$D(X)$
0-1 分布	$B(1,p)$	$p$	$p(1-p)$
二项分布	$B(n,p)$	$np$	$np(1-p)$
泊松分布	$P(\lambda)$	$\lambda$	$\lambda$
几何分布	$Ge(p)$	$1/p$	$(1-p)/p^2$
超几何分布	$H(N,M,n)$	$n\frac{M}{N}$	$n\frac{M}{N}\frac{N-M}{N}\frac{N-n}{N-1}$
均匀分布	$U(a,b)$	$\frac{a+b}{2}$	$\frac{(b-a)^2}{12}$
指数分布	$Exp(\lambda)$	$1/\lambda$	$1/\lambda^2$
正态分布	$N(\mu,\sigma^2)$	$\mu$	$\sigma^2$
$\chi^2$ 分布	$\chi^2(n)$	$n$	$2n$
$t$ 分布	$t(n)$	$0;(n>1)$	$\frac{n}{n-2};(n>2)$
$F$ 分布	$F(n_1,n_2)$	$\frac{n_2}{n_2-2};(n_2>2)$	$\frac{2n_2^2(n_1+n_2-2)}{n_1(n_2-2)^2(n_2-4)};(n_2>4)$

4.5 大数定律与中心极限定理

切比雪夫不等式

若 $E(X)=\mu$，$D(X)=\sigma^2$，则对任意 $\varepsilon>0$： $$P(|X-\mu|\geq\varepsilon)\leq\frac{\sigma^2}{\varepsilon^2},\quad P(|X-\mu|<\varepsilon)\geq 1-\frac{\sigma^2}{\varepsilon^2}$$

方差越小，偏离均值的概率越小。这是一个保守估计，不是精确概率。

例题 4-3：$E(X)=100$，$D(X)=25$，用切比雪夫不等式求 $P(90<X<110)$ 的下界。

解：$\varepsilon=10$，$P(|X-100|<10)\geq1-\frac{25}{100}=0.75$。

大数定律

若 $X_1,X_2,\ldots$ 独立同分布，$E(X_i)=\mu$，则样本均值 $\bar{X}=\frac{1}{n}\sum X_i$ 依概率收敛于 $\mu$： $$\lim_{n\to\infty}P(|\bar{X}-\mu|<\varepsilon)=1$$

含义：大量重复试验的平均结果趋于理论期望。这是频率稳定于概率的理论基础。

中心极限定理

若 $X_1,\ldots,X_n$ 独立同分布，$E(X_i)=\mu$，$D(X_i)=\sigma^2$，则当 $n$ 足够大： $$\frac{\sum X_i - n\mu}{\sigma\sqrt{n}} ;\xrightarrow{d}; N(0,1)$$

等价地：$\bar{X}$ 近似 $\sim N(\mu,;\sigma^2/n)$。

这条定理的直觉很重要：很多细小、独立的随机扰动加在一起，整体形状会越来越像正态分布。就像一张试卷的总分由很多小题相加，单题可能不是正态，但总分常常会呈现中间多、两头少的钟形。

棣莫弗-拉普拉斯中心极限定理（二项正态近似）：若 $X\sim B(n,p)$，$n$ 大，则： $$X \approx N(np,;np(1-p)),\quad \frac{X-np}{\sqrt{np(1-p)}}\approx N(0,1)$$

连续性修正（提高精度）：$P(a\leq X\leq b)\approx P(a-0.5<Y<b+0.5)$，其中 $Y$ 是近似正态变量。

例题 4-4：掷均匀硬币 100 次，用正态近似求正面次数在 45 到 55 之间的概率。

解：$X\sim B(100,0.5)$，$np=50$，$np(1-p)=25$。 $$P(45\leq X\leq 55)\approx P!\left(\frac{44.5-50}{5}<Z<\frac{55.5-50}{5}\right)=\Phi(1.1)-\Phi(-1.1)=2\Phi(1.1)-1\approx 0.7287$$

例题 4-5：某电站供电 10000 户，每户用电概率 0.8，独立。求用电户数在 7900 到 8100 之间的概率（近似）。

解：$E=8000$，$D=10000\times0.8\times0.2=1600$，$\sigma=40$。 $$ \begin{aligned} P(7900\leq X\leq 8100) &\approx \Phi!\left(\frac{8100.5-8000}{40}\right) -\Phi!\left(\frac{7899.5-8000}{40}\right) \ &=\Phi(2.5125)-\Phi(-2.5125)\approx0.988 \end{aligned} $$

五、统计量与抽样分布

这一章先记一句话：样本本身是随机的，所以由样本算出的统计量也有分布。

5.1 总体、样本与统计量

基本概念

总体：研究对象的全体个体：总体中的每个元素简单随机样本：$X_1,\ldots,X_n$ 独立且与总体同分布统计量：只含样本不含未知参数的函数（如 $\bar{X},S^2$，不含 $\mu,\sigma$）

这一章开始，视角翻过来了。前面是“我知道总体分布，所以算样本会怎样”；统计部分是“我只拿到一小把样本，要反推背后的总体”。样本像从锅里舀出来的一勺汤，统计量就是你从这一勺汤里量出来的咸淡、平均温度和波动。

常用统计量

统计量	公式	说明
样本均值	$\bar{X}=\frac{1}{n}\sum X_i$	一阶样本原点矩
样本方差	$S^2=\frac{1}{n-1}\sum(X_i-\bar{X})^2$	分母 $n-1$（无偏！）
样本 $k$ 阶原点矩	$A_k=\frac{1}{n}\sum X_i^k$	$A_1=\bar{X}$
样本 $k$ 阶中心矩	$B_k=\frac{1}{n}\sum(X_i-\bar{X})^k$	$B_2$ 分母为 $n$（有偏！）

注意：$S^2$ 分母是 $n-1$ 是为了使 $E(S^2)=\sigma^2$（无偏）。$\frac{1}{n}\sum(X_i-\bar{X})^2$ 的期望是 $\frac{n-1}{n}\sigma^2$，有偏。

5.2 三大抽样分布

(1) $\chi^2$ 分布

若 $Z_1,\ldots,Z_n$ 独立同分布且都服从 $N(0,1)$，则 $\chi^2=\sum Z_i^2\sim\chi^2(n)$。

$E(\chi^2)=n$，$D(\chi^2)=2n$ 可加性：若 $U\sim\chi^2(n_1)$，$V\sim\chi^2(n_2)$ 独立，则 $U+V\sim\chi^2(n_1+n_2)$
密度图像：$n\leq2$ 时单调递减；$n>2$ 时呈单峰右偏态
$\alpha$ 上侧分位数 $\chi^2_\alpha(n)$：$P(\chi^2>\chi^2_\alpha(n))=\alpha$
(2) $t$ 分布

若 $X\sim N(0,1)$，$Y\sim\chi^2(n)$，$X$ 与 $Y$ 独立，则 $T=\frac{X}{\sqrt{Y/n}}\sim t(n)$。

$t$ 分布关于 0 对称，尾部比 $N(0,1)$ 厚
当 $n\to\infty$ 时，$t(n)\to N(0,1)$ 用途：总体方差 $\sigma^2$ 未知时，均值 $\mu$ 的推断
(3) $F$ 分布

若 $U\sim\chi^2(n_1)$，$V\sim\chi^2(n_2)$，$U,V$ 独立，则 $F=\frac{U/n_1}{V/n_2}\sim F(n_1,n_2)$。

用途：两个正态总体方差比 $\sigma_1^2/\sigma_2^2$ 的推断性质：若 $F\sim F(n_1,n_2)$，则 $1/F\sim F(n_2,n_1)$

$F_{1-\alpha}(n_1,n_2)=\frac{1}{F_\alpha(n_2,n_1)}$

5.3 正态总体下的重要结论（必须熟记！）

设 $X_1,\ldots,X_n$ 独立同分布且都服从 $N(\mu,\sigma^2)$，则：

结论	分布	用途
$\bar{X}$	$N(\mu,\sigma^2/n)$	均值分布
$\frac{(n-1)S^2}{\sigma^2}$	$\chi^2(n-1)$	方差推断
$\bar{X}$ 与 $S^2$	相互独立	—
$\frac{\bar{X}-\mu}{S/\sqrt{n}}$	$t(n-1)$	$\sigma$ 未知时均值推断

两正态总体：$X_1,\ldots,X_{n_1}$ 独立同分布且都服从 $N(\mu_1,\sigma_1^2)$，$Y_1,\ldots,Y_{n_2}$ 独立同分布且都服从 $N(\mu_2,\sigma_2^2)$，两样本独立。

方差已知时均值差：$\frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)$
方差未知但相等（$\sigma_1^2=\sigma_2^2=\sigma^2$）时： $$ \frac{(\bar{X}-\bar{Y})-(\mu_1-\mu_2)}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}} \sim t(n_1+n_2-2) $$ 其中 $$ S_p^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2} $$ 为合并样本方差。
方差比：$\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2}\sim F(n_1-1,n_2-1)$

六、参数估计与假设检验

这一章先记一句话：我们不知道总体参数，只能用样本去估计和检验。

6.1 点估计

矩估计法

思想：总体矩 = 样本矩，有几个参数就列几个方程。

步骤：

写出总体矩 $E(X),E(X^2),\ldots$ 用参数表示
写出样本矩 $A_1=\bar{X},A_2=\frac{1}{n}\sum X_i^2,\ldots$
令总体矩 = 样本矩
解出参数

例题 6-1：$X\sim U(0,\theta)$，求 $\theta$ 的矩估计。

解：$E(X)=\theta/2$。令 $\theta/2=\bar{X}$，得 $\hat{\theta}=2\bar{X}$。

例题 6-2：$X\sim N(\mu,\sigma^2)$，求 $\mu,\sigma^2$ 的矩估计。

解：先用一阶矩：$E(X)=\bar{X}$，得到 $$ \hat{\mu}=\bar{X} $$

再用二阶矩：令 $$ E(X^2)=\frac{1}{n}\sum X_i^2 $$ 且 $$ E(X^2)=D(X)+[E(X)]^2=\sigma^2+\mu^2 $$ 代入可得 $$ \hat{\sigma}^2 =\frac{1}{n}\sum X_i^2-\bar{X}^2 =\frac{1}{n}\sum(X_i-\bar{X})^2 $$ 这是有偏估计。

最大似然估计

思想：已观察到样本 $x_1,\ldots,x_n$，选择使得这些样本出现概率最大的 $\theta$。

矩估计像“用样本平均值去对齐总体平均值”，最大似然估计则像破案：现在现场已经留下这些样本痕迹，哪个参数最可能制造出这些痕迹，就选哪个参数。

步骤：

写出似然函数 $L(\theta)=\prod f(x_i;\theta)$（连续）或 $\prod P(X=x_i;\theta)$（离散）
取对数 $\ln L(\theta)$
求导 $\frac{d\ln L}{d\theta}=0$（多参数时求偏导）
解出 $\hat{\theta}$
检查最大值或参数边界

例题 6-3：$X\sim Exp(\lambda)$，样本 $x_1,\ldots,x_n$，求 $\lambda$ 的最大似然估计。

解：$L(\lambda)=\prod_{i=1}^n\lambda e^{-\lambda x_i}=\lambda^n e^{-\lambda\sum x_i}$。 $\ln L=n\ln\lambda-\lambda\sum x_i$。 $\frac{d\ln L}{d\lambda}=\frac{n}{\lambda}-\sum x_i=0$，得 $\hat{\lambda}=\frac{n}{\sum x_i}=\frac{1}{\bar{x}}$。

例题 6-4：$X\sim N(\mu,\sigma^2)$，求 $\mu,\sigma^2$ 的最大似然估计。

解：$L=\prod\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x_i-\mu)^2}{2\sigma^2}}=(2\pi\sigma^2)^{-n/2}\exp!\left[-\frac{\sum(x_i-\mu)^2}{2\sigma^2}\right]$。 $\ln L=-\frac{n}{2}\ln(2\pi)-\frac{n}{2}\ln\sigma^2-\frac{\sum(x_i-\mu)^2}{2\sigma^2}$。求偏导得 $\hat{\mu}=\bar{x}$，$\hat{\sigma}^2=\frac{1}{n}\sum(x_i-\bar{x})^2$。

例题 6-5（最大似然估计的不变性）：$X\sim P(\lambda)$，已求得 $\hat{\lambda}=\bar{x}$。求 $P(X=0)=e^{-\lambda}$ 的最大似然估计。

解：由最大似然估计的不变性，$\widehat{P(X=0)}=e^{-\hat{\lambda}}=e^{-\bar{x}}$。

估计量的评价标准

无偏性：$E(\hat{\theta})=\theta$。如 $\bar{X}$ 是 $\mu$ 的无偏估计，$S^2$ 是 $\sigma^2$ 的无偏估计。有效性：在无偏估计量中，方差越小越有效。例如 $n$ 越大，$\bar{X}$ 越有效。相合性（一致性）：$\hat{\theta}_n \xrightarrow{P} \theta$（$n\to\infty$ 时估计量趋近真值）。

例题 6-6：证明 $\hat{\sigma}^2=\frac{1}{n}\sum(X_i-\bar{X})^2$ 不是 $\sigma^2$ 的无偏估计。

证：$E(\hat{\sigma}^2)=E!\left(\frac{n-1}{n}\cdot\frac{1}{n-1}\sum(X_i-\bar{X})^2\right)=\frac{n-1}{n}E(S^2)=\frac{n-1}{n}\sigma^2\neq\sigma^2$。偏差为 $-\sigma^2/n$，当 $n\to\infty$ 时趋于 0，说明虽不是无偏但是相合的。

6.2 区间估计

区间估计给一个范围 $(\hat{\theta}_L,;\hat{\theta}_U)$，并说明置信水平 $1-\alpha$。

核心方法：构造枢轴量——含有参数 $\theta$ 且分布完全已知的统计量。

枢轴量可以理解成一把“可查表的尺子”。它里面虽然带着未知参数，但整体分布是已知的，所以我们可以先在这把尺子上圈出高概率区间，再把不等式倒回去解出参数范围。

单个正态总体均值的置信区间

条件	枢轴量	置信区间
$\sigma^2$ 已知	$Z=\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)$	$\bar{X}\pm z_{\alpha/2}\cdot\frac{\sigma}{\sqrt{n}}$
$\sigma^2$ 未知	$T=\frac{\bar{X}-\mu}{S/\sqrt{n}}\sim t(n-1)$	$\bar{X}\pm t_{\alpha/2}(n-1)\cdot\frac{S}{\sqrt{n}}$

单个正态总体方差的置信区间

枢轴量 $\frac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)$： $$\left(\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)},;\frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\right)$$

注意上下限：$\sigma^2$ 在分母，解不等式时方向颠倒！

两正态总体均值差的置信区间

条件	枢轴量	置信区间
$\sigma_1^2,\sigma_2^2$ 已知	$Z$	$(\bar{X}-\bar{Y})\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}$
$\sigma_1^2=\sigma_2^2$ 未知	$T$（合并 $S_p$）	$(\bar{X}-\bar{Y})\pm t_{\alpha/2}(n_1+n_2-2)\cdot S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}$

两正态总体方差比的置信区间

枢轴量 $\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1)$： $$\left(\frac{S_1^2}{S_2^2}\cdot\frac{1}{F_{\alpha/2}(n_1-1,n_2-1)},;\frac{S_1^2}{S_2^2}\cdot F_{\alpha/2}(n_2-1,n_1-1)\right)$$

例题 6-7：随机抽 16 个零件，测得 $\bar{x}=50$，$s=4$。求零件平均长度 $\mu$ 的 95% 置信区间。

解：$\sigma$ 未知，用 $t$ 分布。$t_{0.025}(15)\approx2.131$。区间：$50\pm2.131\times\frac{4}{\sqrt{16}}=50\pm2.131\times1=50\pm2.131=(47.87,;52.13)$。

6.3 假设检验

基本概念

先假定原假设 $H_0$ 成立，然后看样本结果是否"过于反常"。如果太反常，就拒绝 $H_0$。

原假设 $H_0$：默认/保守假设，通常含等号（如 $H_0:\mu=\mu_0$）备择假设 $H_1$：想验证的方向（$\neq$、$>$、$<$）显著性水平 $\alpha$：犯第一类错误（弃真）的概率上限。常见 $0.05$、$0.01$ 第一类错误：$H_0$ 真却被拒绝（概率 $\leq\alpha$）第二类错误：$H_0$ 假却没被拒绝（概率记为 $\beta$）检验功效：$1-\beta$，即正确拒绝错误 $H_0$ 的概率

	$H_0$ 为真	$H_0$ 为假
拒绝 $H_0$	第一类错误（$\alpha$）	正确决策（$1-\beta$）
不拒绝 $H_0$	正确决策（$1-\alpha$）	第二类错误（$\beta$）

p 值法（补充）

p 值：在 $H_0$ 成立下，观察到比当前样本更极端结果的概率。

若 $p\text{ 值} < \alpha$，拒绝 $H_0$
若 $p\text{ 值} \geq \alpha$，不拒绝 $H_0$

p 值越小，反对 $H_0$ 的证据越强。

检验的一般步骤

写 $H_0$ 和 $H_1$
选择检验统计量
在 $H_0$ 成立下确定统计量分布
根据 $\alpha$ 和 $H_1$ 确定拒绝域
代入样本计算统计量值
判断是否落入拒绝域
写结论（"拒绝 $H_0$"或"不拒绝 $H_0$"）

单个正态总体均值的检验

条件	统计量	$H_1:\mu\neq\mu_0$	$H_1:\mu>\mu_0$	$H_1:\mu<\mu_0$
$\sigma^2$ 已知	$Z=\frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}$	$\vert Z\vert >z_{\alpha/2}$	$Z>z_\alpha$	$Z<-z_\alpha$
$\sigma^2$ 未知	$T=\frac{\bar{X}-\mu_0}{S/\sqrt{n}}$	$\vert T\vert >t_{\alpha/2}(n-1)$	$T>t_\alpha(n-1)$	$T<-t_\alpha(n-1)$

单个正态总体方差的检验

统计量 $\chi^2=\frac{(n-1)S^2}{\sigma_0^2}\sim\chi^2(n-1)$。

$H_1$	拒绝域
$\sigma^2\neq\sigma_0^2$	$\chi^2<\chi^2_{1-\alpha/2}(n-1)$ 或 $\chi^2>\chi^2_{\alpha/2}(n-1)$
$\sigma^2>\sigma_0^2$	$\chi^2>\chi^2_\alpha(n-1)$
$\sigma^2<\sigma_0^2$	$\chi^2<\chi^2_{1-\alpha}(n-1)$

两正态总体均值差的检验

条件	统计量	分布
$\sigma_1^2,\sigma_2^2$ 已知	$Z=\frac{(\bar{X}-\bar{Y})-\delta_0}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$	$N(0,1)$
$\sigma_1^2=\sigma_2^2$ 未知	$T=\frac{(\bar{X}-\bar{Y})-\delta_0}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$	$t(n_1+n_2-2)$

其中 $S_p^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}$。

两正态总体方差比的检验

$H_0:\sigma_1^2=\sigma_2^2$，统计量 $F=S_1^2/S_2^2\sim F(n_1-1,n_2-1)$。

$H_1$	拒绝域
$\sigma_1^2\neq\sigma_2^2$	$F<F_{1-\alpha/2}(n_1-1,n_2-1)$ 或 $F>F_{\alpha/2}(n_1-1,n_2-1)$
$\sigma_1^2>\sigma_2^2$	$F>F_\alpha(n_1-1,n_2-1)$
$\sigma_1^2<\sigma_2^2$	$F<F_{1-\alpha}(n_1-1,n_2-1)$

例题 6-8：某厂宣称产品平均寿命 1000h。抽 25 件测得 $\bar{x}=980$，$s=65$。在 $\alpha=0.05$ 下，是否认为平均寿命低于宣称值？

解：$H_0:\mu=1000$，$H_1:\mu<1000$（左侧检验）。$\sigma$ 未知，用 $t$ 检验。 $T=\frac{980-1000}{65/\sqrt{25}}=\frac{-20}{13}=-1.538$。 $t_{0.05}(24)\approx1.711$。拒绝域 $T<-1.711$。 $-1.538>-1.711$，不落入拒绝域，故不拒绝 $H_0$，即没有充分证据认为平均寿命低于 1000h。

七、备考总结

这一章先记一句话：做题先判断题型，再选工具，最后代公式计算。

7.1 题型-方法总表

A. 事件概率类

题型	关键词	方法
事件关系表达	至少、至多、恰有、都不、不全	集合运算或列 8 种状态
并交补概率	$P(A),P(B),P(AB)$	容斥公式、补事件、文氏图
古典概型	等可能、有限样本点	有利数 / 总数
几何概型	随机取点、会面	测度比
抽球	有放回、无放回	有放回用乘法，无放回用组合/排列
条件概率	已知、在……条件下	$P(A\mid B)=P(AB)/P(B)$
全概率	多来源、多路径	$\sum P(B_i)P(A\mid B_i)$
贝叶斯	已知结果反推来源	后验 = 路径概率 / 总概率
独立性	互不影响	$P(AB)=P(A)P(B)$

B. 一维随机变量类

题型	关键词	方法
求分布律	X 的可能值有限	列值、求概率、检查和=1
分布律→分布函数	离散型 X	累加概率，阶梯函数
密度求参数	$f(x)=c\cdots$	总积分=1
密度求概率	连续型区间概率	积分
密度→分布函数	$F(x)=P(X\leq x)$	从 $-\infty$ 积到 $x$，分段
分布函数→密度	连续型	求导
正态概率	$N(\mu,\sigma^2)$	标准化→查表
函数分布	$Y=g(X)$	分布函数法或合并概率

C. 二维随机变量类

题型	关键词	方法
联合表求边缘	离散二维表	行和、列和
条件分布	已知 X 或 Y	某格 / 行和或列和
离散独立	联合表	每格是否=边缘乘积
联合密度求常数	$f(x,y)=c\cdots$	二重积分=1
联合密度求边缘	只关心 X 或 Y	积掉另一个变量
联合密度求概率	$P((X,Y)\in D)$	画区域，二重积分
连续独立	$f(x,y)$	是否=$f_X f_Y$
$X+Y$ 分布	和变量	卷积
最大/最小	$\max$/$\min$	分布函数法+反事件

D. 数字特征类

题型	方法
求 $E(X)$	离散求和，连续积分
求 $E[g(X)]$	不必先求 Y 分布，直接代函数
求 $D(X)$	$E(X^2)-[E(X)]^2$
求 $Cov(X,Y)$	$E(XY)-E(X)E(Y)$
求相关系数	$Cov$ / 标准差乘积
判断不相关	$Cov=0$
判断独立	回联合分布，不看 $Cov$

E. 极限定理类

题型	方法
概率下界估计	切比雪夫不等式
样本均值稳定	大数定律
样本和近似正态	中心极限定理
二项分布近似	正态近似+连续性修正

F. 数理统计类

题型	方法
判断统计量	是否只含样本、不含未知参数
样本均值分布	$\bar{X}\sim N(\mu,\sigma^2/n)$
样本方差分布	$(n-1)S^2/\sigma^2\sim\chi^2(n-1)$
$\sigma$ 未知均值推断	$t$ 分布
方差推断	$\chi^2$ 分布
两方差比	$F$ 分布
矩估计	总体矩 = 样本矩
最大似然	写 $L$→取 $\ln$→求导
无偏性	求估计量期望
置信区间	构造枢轴量
假设检验	$H_0$ 下看统计量是否入拒绝域

7.2 核心底层方法十二条

先判断对象层级：事件题？一维变量题？二维变量题？数字特征题？统计推断题？
事件题：画文氏图或列状态。两个事件画四块，三个事件列八种。
古典概型：分母比分子更重要。注意是否等可能、是否考虑顺序、是否有放回、是否计数方式一致。
条件概率：样本空间变了。$P(A\mid B)$ 是在 $B$ 这个新世界里 $A$ 占多少。
全概率：正向分路径。多来源→先设来源 $B_i$，$P(A)=$ 所有路径概率相加。
贝叶斯：反向追来源。原因→结果用全概率，结果→原因用贝叶斯。
分布函数永远是 $F(x)=P(X\leq x)$。函数分布题更要靠这个定义。
密度不是概率，积分才是概率。$f(a)$ 不是 $P(X=a)$，概率来自面积。
二维题的生命线是画区域。画有效区域→画事件区域→取交集→选积分顺序→写上下限。
期望是加权平均，方差是波动。方差优先用 $E(X^2)-[E(X)]^2$。
独立性统一逻辑：事件 $P(AB)=P(A)P(B)$，离散 $p_{ij}=p_i p_j$，连续 $f(x,y)=f_X f_Y$。
统计推断的本质是"用样本反推总体"。前半概率论：总体→样本；后半数理统计：样本→总体。

7.3 最易混淆的知识点辨析

易混淆对	区分要点
互不相容 vs 独立	互不相容 = 不能同时发生；独立 = 互不影响。非零概率事件互不相容则一定不独立
$P(A\mid B)$ vs $P(B\mid A)$	一般不相等！分母是条件事件，分子是两者同时发生
二项 vs 超几何	有放回/独立重复→二项；无放回→超几何。$N$ 大 $n$ 小时超几何近似二项
泊松 vs 指数	泊松数"次数"（单位时间发生 $k$ 次）；指数数"时间"（等待下一次的时间）
分布函数端点	离散型注意 $P(a\leq X\leq b)=F(b)-F(a-)$；连续型端点无所谓
样本方差分母	$S^2$ 分母是 $n-1$（无偏），$\frac{1}{n}\sum(X_i-\bar{X})^2$ 有偏
不相关 vs 独立	独立⇒不相关；不相关⇏独立（可能有非线性关系）。例外：二维正态下等价
$t$ / $\chi^2$ / $F$ 用途	$t$→均值推断（$\sigma$ 未知）；$\chi^2$→方差推断；$F$→两方差比
置信区间 vs 假设检验	本质相通：双侧 $(1-\alpha)$ 置信区间等价于水平 $\alpha$ 的双侧检验接受域
矩估计 vs 最大似然	矩估计简单但未必最优；最大似然通常更有效且有不变性，但需要解方程

7.4 复习建议与总纲

复习优先级：

第一优先级（核心贯通）：随机事件概率→一维随机变量分布→二维随机变量分布→期望方差→常见分布
第二优先级（题型固定）：大数定律、中心极限定理→统计量和抽样分布
第三优先级（套路最强）：参数估计→假设检验（关键是识别"用 Z / t / $\chi^2$ / F 哪个分布"）

最简洁的总纲：

先把随机现象变成事件，再把事件变成随机变量，再用分布描述随机变量，再用期望方差概括分布，再用样本反推总体。

做题五判断：

问的是事件还是变量？
是离散还是连续？
是一维还是二维？
是求概率、求分布、求数字特征，还是做统计推断？
已知分布求概率，还是已知样本估参数？

只要把这五个判断做对，概率论的大多数题就不是"背公式"，而是"选择正确工具"。