2024-06-03发表学习

概率论与数理统计复习笔记

1 随机事件与概率

概率的加法公式

$$P(\cup_{i=1}^{n}A_i)=\sum_i^n P(A_i)-\sum_{1\le i<j\le n}P(A_iA_j)+\sum_{1\le i<j<k\le n} P(A_iA_jA_k)-\cdots+(-1)^nP(A_i\cdots A_j)$$

类似容斥原理

伯努利试验与二项概率

伯努利试验：只有成功或失败两种结果的随机试验

二项概率：$n$ 重伯努利试验恰好成功 $k$ 次的概率

全概率公式和贝叶斯公式

假设 $A_1,A_2,\cdots,A_n$ 构成样本空间的一个划分，$B$ 是某个事件

全概率公式：

$$P(B)=\sum_{i=1}^nP(A_i)P(B|A_i)$$

贝叶斯公式：当 $P(B)>0$ 时

$$P(A_i|B)=\frac{P(A_iB)}{P(B)}=\frac{P(A_i)P(B|A_i)}{\sum_{l=1}^{n}P(A_l)P(B|A_l)}$$

2 离散型随机变量及其分布

二项分布 $B(n,p)$

$n$ 重伯努利试验成功的次数 $X$ 服从二项分布
$$P(X=k)=C_n^kp^k(1-p)^{n-k}$$

$n=1$ 的二项分布称为0-1分布

逆二项分布

伯努利试验中，成功 $n$ 次时已进行的试验次数 $X$ 服从逆二项分布

$$P(X=k)=C_{k-1}^{n-1}p^n(1-p)^{k-n},k=n,n+1,\cdots$$

即前 $k-1$ 次试验恰好成功 $n-1$ 次，且第 $k$ 次试验成功

超几何分布 $H(N,M,n)$

$N$ 个物品中有 $M$ 个目标物品，无放回抽样 $n$ 次抽到的目标物品个数 $X$ 服从超几何分布

$$P(X=k)=\frac{C_M^kC_{N-M}^{n-k} }{C_N^n}$$

当 $N\gg n$ 时，超几何分布近似于二项分布，即可以视作有放回抽样

泊松分布 $P(\lambda)$

泊松定理：记 $\lambda=np$

$$\underset{n\rightarrow\infty}\lim C_n^k p^k(1-p)^{n-k}=e^{-\lambda}\cdot \frac{\lambda^k}{k!}$$

即当 $n$ 较大时，二项分布近似于泊松分布

$$P(X=k)=e^{-\lambda}\cdot \frac{\lambda^k}{k!}$$

而泊松分布的概率计算更容易

需要注意由于 $n\rightarrow \infty$，为了避免 $\lambda\rightarrow\infty$，需要 $p\rightarrow 0$

几何分布

伯努利试验中，成功一次时已进行的试验次数 $X$ 服从几何分布

$$P(X=k)=p(1-p)^{k-1}$$

几何分布是逆二项分布的一种特殊情况

几何分布的无记忆性：

$$P(X>s+t|X>s)=P(X>t)$$

分布的可加性

二项分布可加性（可拓展）：
$$X\sim B(m,p),Y\sim B(n,p)\Rightarrow X+Y\sim B(m+n,p)$$

泊松分布可加性（可拓展）：
$$X\sim P(\lambda_1),Y\sim P(\lambda_2)\Rightarrow X+Y\sim P(\lambda_1+\lambda_2)$$

可加性的前提都是相互独立

二维随机变量

边缘概率函数不能唯一确定联合概率函数

分布独立性的定义：联合密度函数等于边缘密度函数的乘积

3 连续性随机变量及其分布

分布函数和概率密度函数

分布函数 $F(x)$：可以表示概率

概率密度函数 $f(x)$：密度，不能表示概率

$F(x)=\int_{-\infty}^{\infty}f(x)dx$

均匀分布 $R(a,b)$

仅在区间 $[a,b]$ 上等概率分布，密度 $\frac{1}{b-a}$

指数分布 $E(\lambda)$

概率密度函数 $f(x)=\begin{cases}\lambda e^{-\lambda x},x>0\\ 0,x\le 0\end{cases}$

分布函数 $F(x)=\begin{cases}1-e^{-\lambda x},x\ge 0\\ 0,x<0\end{cases}$

指数分布也具有无记忆性

正态分布（高斯分布）$N(\mu,\sigma^2)$

概率密度函数 $f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

正态分布的线性函数的分布：
$$X\sim N(\mu,\sigma^2)\Rightarrow kX+c\sim N(k\mu+c,k^2\sigma)$$

$$X\sim N(\mu,\sigma^2)\Rightarrow \frac{X-\mu}{\sigma}\sim N(0,1)$$

二维正态分布 $N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$ 中 $\rho$ 代表两变量的相关性，两变量的边缘分布都是一维正态分布

联合密度和边缘密度

联合密度（点密度） $\overset{积分}\longrightarrow$ 边缘密度（线密度） $\overset{积分}\longrightarrow$ 事件概率（面概率）

正态分布的可加性

若 $X,Y$ 相互独立：
$$X\sim N(\mu_1,\sigma_1),Y\sim N(\mu_2,\sigma_2)\\ \Rightarrow X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2),X-Y\sim N(\mu_1-\mu_2,\sigma_1^2+\sigma_2^2)$$

（甚至正态分布相乘也是正态分布）

二维随机变量函数的密度函数

由 $f(x,y)$ 求 $X=g(x,y)$ 的密度函数：根据 $g(x,y)$ 表达式画出图，进行积分求 $F_Z(z)$，再求导得 $f_Z(z)$

卷积公式

若 $X,Y$ 相互独立，$Z=X+Y$：
$$f_Z(z)=\int_{-\infty}^{\infty}f_X(x)f_Y(z-x)dx$$

4 随机变量的数字特征

期望

离散随机变量期望（仅当收敛时有定义）：
$$E(X)=\sum_{i=1}^{\infty}a_ip_i$$

连续随机变量期望：
$$E(X)=\int_{-\infty}^{\infty}xf(x)dx$$

期望的性质：

$E(kX+c)=kE(X)+c$
$X,Y$ 相互独立时，$E(XY)=E(X)E(Y)$

方差

方差在期望的基础上定义：
$$D(X)=E\lbrace [X-E(X)]^2\rbrace =E(X^2)-[E(X)]^2$$

常见分布的期望和方差

分布	期望	方差	$X^2$ 期望
$B(n,p)$	$np$	$np(1-p)$	$np(1-p)+(np)^2$
$P(\lambda)$	$\lambda$	$\lambda$	$\lambda^2+\lambda$
$R(a,b)$	$\frac{a+b}{2}$	$\frac{(b-a)^2}{12}$
$E(\lambda)$	$\frac{1}{\lambda}$	$\frac{1}{\lambda^2}$	$\frac{2}{\lambda^2}$
$H(N,M,n)$	$\frac{nM}{N}$	会算
$N(\mu,\sigma^2)$	$\mu$	$\sigma^2$
几何分布	$\frac{1}{p}$	$\frac{1-p}{p^2}$	$\frac{2-p}{p^2}$

协方差

协方差反映两个随机变量总体误差的情况：
$$\text{cov}(X,Y)=E\lbrace [X-E(X)][Y-E(Y)]\rbrace =E(XY)-E(X)E(Y)$$

协方差的性质：

$\text{cov}(X,c)=0$
$\text{cov}(X,Y)=\text{cov}(Y,X)$
$\text{cov}(\sum_i X_i,\sum_j Y_j)=\sum_i\sum_j\text{cov}(X_i,Y_j)$

方差是协方差的特例：
$$D(X)=\text{cov}(X,X)$$

相关系数反映两个随机变量的线性相关性：
$$\rho(X,Y)=\frac{\text{cov}(X,Y)}{\sqrt{D(X)D(Y)} }$$

相互独立一定不相关，不相关不一定相互独立。

切比雪夫不等式

$$P(|X-\mu|\ge\epsilon)\le \frac{\sigma^2}{\epsilon^2}$$

用于估算随机变量偏移均值的概率上界

柯西-许瓦兹不等式

$$[E(XY)]^2\le E(X^2)E(Y^2)$$

用于比较矩的大小

5 随机变量序列的极限

大数定律

切比雪夫大数定律：对于两两不相关的随机变量序列，如果 $D(X_i)$ 有界，那么 $\frac{1}{n}\sum_{i=1}^{n}(X_i-E(X_i))$ 依概率收敛于 $0$

辛钦大数定律：对于独立同分布的随机变量序列，$\frac{1}{n}i\sum_{i=1}^{n}X_i$ 依概率收敛于 $E(X)$

伯努利大数定律：辛钦大数定律对于0-1分布的特例

中心极限定理

列维-林德伯格中心极限定理：对于独立同分布的随机变量序列：
$$\underset{n\rightarrow\infty}\lim P\left(\sqrt{n}\frac{\overline X-\mu}{\sigma}\le x\right)=\Phi(x)$$
其中 $\Phi(x)$ 是 $N(0,1)$ 的分布函数

即可以近似认为：
$$\sum_{i=1}^n X_i\sim N(n\mu,n\sigma^2),\overline X\sim N(\mu,\frac{\sigma^2}{n})$$

德莫弗-拉普拉斯中心极限定理：列维-林德伯格中心极限定理对于0-1分布的特例

根据中心极限定理，二项分布在 $n$ 较大时也可以用正态分布近似，优点是不需要 $p$ 趋于零

7 数理统计的基本概念

统计量

一个随机变量是样本的函数，则称其为统计量，特点是不包含总体分布中的任何未知参数

样本均值的方差：$D(\overline X)=\frac{D(X)}{n}$

样本方差：$S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline X)^2$

样本方差不等于样本的二阶中心矩

解释一：因为样本均值是样本对总体均值的估计，使用样本均值引入了一个自由度的消耗（即一个线性约束 $\overline X=\frac{1}{n}\sum_{i=1}^{n}X_i$）
解释二：样本均值与总体均值存在的偏差被忽视了，因此样本方差是对总体方差的低估

卡方分布 $\chi^2(n)$

$n$ 个相互独立且服从标准正态分布变量的平方和服从卡方分布，其中 $n$ 称为自由度

卡方分布的均值和方差：$Y\sim \chi^2(n)\Rightarrow E(Y)=n,D(Y)=2n$

卡方分布具有可加性（根据定义显然）

学生分布 $t(n)$

若 $X,Y$ 相互独立且 $X\sim N(0,1),Y\sim\chi^2(n)$，则
$$\frac{X}{\sqrt{\frac{Y}{n} } }\sim t(n)$$

其中 $n$ 称为自由度

性质：当 $x\rightarrow\infty$ 时，密度函数趋于标准正态分布的密度函数

解释：$\sqrt{\frac{Y}{n}}$ 其实是 $n$ 个变量标准差的观测值，趋于 1

F 分布 $F(m,n)$

若 $X,Y$ 相互独立且 $X\sim\chi^2(m),Y\sim\chi^2(n)$，则
$$\frac{\frac{X}{m} }{\frac{Y}{n} }\sim F(m,n)$$

其中 $(m,n)$ 称为自由度

性质：若 $F\sim F(m,n)$，则 $\frac{1}{F}\sim F(n,m)$

解释：F 其实是变量方差的观测值的比值

抽样分布

统计量的分布都叫抽样分布

对于正态总体 $N(\mu,\sigma^2)$ 的样本：

$\overline X\sim N(\mu,\frac{\sigma^2}{n})$
$\frac{n-1}{\sigma^2}S^2\sim\chi^2(n-1)$
$\overline X$ 与 $S^2$ 相互独立（仅限正态分布）

8 参数估计

用于估计未知参数的样本的函数称为估计量

估计量的分布都是指随样本的分布

矩估计

矩估计的思想是用样本原点矩来替换总体原点矩，从而估计与总体原点矩有关的未知参数

$$\hat\sigma^2=S_n^2$$

$$\hat\mu=\overline X$$

极大似然估计

似然函数：$L(\theta)=\prod_{i=1}^nf(x_i;\theta)$，其中 $x_i$ 都视为常数

极大似然估计量：$\hat\theta=\text{argmax }L(\theta)$

似然函数通常是多个概率密度函数的乘积，因此通常通过解方程 $\frac{d}{d\theta}\ln L(\theta)=0$ 来计算极大似然估计

无偏估计

无偏估计 $\hat\theta$ 满足 $E(\hat\theta)=\theta$

无偏估计中估计值方差较小的称有效

相合估计量在样本增多时估计值的方差趋近于零

置信区间

找一个包含目标参数且随样本服从某一确定分布的变量，从而根据分位数转化得到目标参数的范围

置信区间以估计值为中心，$1-\alpha$ 是在样本观测值下估计量在置信区间内的概率

概率论与数理统计复习笔记

https://cu-oh-2.github.io/post/概率论与数理统计/

作者

Cu_OH_2

发布于

2024-06-03

更新于

2026-01-24

许可协议

#数学

概率论与数理统计 复习笔记

1 随机事件与概率

概率的加法公式

伯努利试验与二项概率

全概率公式和贝叶斯公式

2 离散型随机变量及其分布

二项分布 $B(n,p)$

逆二项分布

超几何分布 $H(N,M,n)$

泊松分布 $P(\lambda)$

几何分布

分布的可加性

二维随机变量

3 连续性随机变量及其分布

分布函数和概率密度函数

均匀分布 $R(a,b)$

指数分布 $E(\lambda)$

正态分布（高斯分布）$N(\mu,\sigma^2)$

联合密度和边缘密度

正态分布的可加性

二维随机变量函数的密度函数

卷积公式

4 随机变量的数字特征

期望

方差

常见分布的期望和方差

协方差

切比雪夫不等式

柯西-许瓦兹不等式

5 随机变量序列的极限

大数定律

中心极限定理

7 数理统计的基本概念

统计量

卡方分布 $\chi^2(n)$

学生分布 $t(n)$

F 分布 $F(m,n)$

抽样分布

8 参数估计

矩估计

极大似然估计

无偏估计

置信区间

作者

发布于

更新于

许可协议

链接

分类

最新文章

归档

标签

概率论与数理统计复习笔记