概率论与数理统计 复习笔记
1 随机事件与概率
概率的加法公式
$$P(\cup_{i=1}^{n}A_i)=\sum_i^n P(A_i)-\sum_{1\le i<j\le n}P(A_iA_j)+\sum_{1\le i<j<k\le n} P(A_iA_jA_k)-\cdots+(-1)^nP(A_i\cdots A_j)$$
类似容斥原理
伯努利试验与二项概率
伯努利试验:只有成功或失败两种结果的随机试验
二项概率:$n$ 重伯努利试验恰好成功 $k$ 次的概率
全概率公式和贝叶斯公式
假设 $A_1,A_2,\cdots,A_n$ 构成样本空间的一个划分,$B$ 是某个事件
- 全概率公式:
$$P(B)=\sum_{i=1}^nP(A_i)P(B|A_i)$$
- 贝叶斯公式:当 $P(B)>0$ 时
$$P(A_i|B)=\frac{P(A_iB)}{P(B)}=\frac{P(A_i)P(B|A_i)}{\sum_{l=1}^{n}P(A_l)P(B|A_l)}$$
2 离散型随机变量及其分布
二项分布 $B(n,p)$
$n$ 重伯努利试验成功的次数 $X$ 服从二项分布
$$P(X=k)=C_n^kp^k(1-p)^{n-k}$$
$n=1$ 的二项分布称为0-1分布
逆二项分布
伯努利试验中,成功 $n$ 次时已进行的试验次数 $X$ 服从逆二项分布
$$P(X=k)=C_{k-1}^{n-1}p^n(1-p)^{k-n},k=n,n+1,\cdots$$
即前 $k-1$ 次试验恰好成功 $n-1$ 次,且第 $k$ 次试验成功
超几何分布 $H(N,M,n)$
$N$ 个物品中有 $M$ 个目标物品,无放回抽样 $n$ 次抽到的目标物品个数 $X$ 服从超几何分布
$$P(X=k)=\frac{C_M^kC_{N-M}^{n-k} }{C_N^n}$$
当 $N\gg n$ 时,超几何分布近似于二项分布,即可以视作有放回抽样
泊松分布 $P(\lambda)$
泊松定理:记 $\lambda=np$
$$\underset{n\rightarrow\infty}\lim C_n^k p^k(1-p)^{n-k}=e^{-\lambda}\cdot \frac{\lambda^k}{k!}$$
即当 $n$ 较大时,二项分布近似于泊松分布
$$P(X=k)=e^{-\lambda}\cdot \frac{\lambda^k}{k!}$$
而泊松分布的概率计算更容易
需要注意由于 $n\rightarrow \infty$,为了避免 $\lambda\rightarrow\infty$,需要 $p\rightarrow 0$
几何分布
伯努利试验中,成功一次时已进行的试验次数 $X$ 服从几何分布
$$P(X=k)=p(1-p)^{k-1}$$
几何分布是逆二项分布的一种特殊情况
几何分布的无记忆性:
$$P(X>s+t|X>s)=P(X>t)$$
分布的可加性
二项分布可加性(可拓展):
$$X\sim B(m,p),Y\sim B(n,p)\Rightarrow X+Y\sim B(m+n,p)$$
泊松分布可加性(可拓展):
$$X\sim P(\lambda_1),Y\sim P(\lambda_2)\Rightarrow X+Y\sim P(\lambda_1+\lambda_2)$$
可加性的前提都是相互独立
二维随机变量
边缘概率函数不能唯一确定联合概率函数
分布独立性的定义:联合密度函数等于边缘密度函数的乘积
3 连续性随机变量及其分布
分布函数和概率密度函数
分布函数 $F(x)$:可以表示概率
概率密度函数 $f(x)$:密度,不能表示概率
$F(x)=\int_{-\infty}^{\infty}f(x)dx$
均匀分布 $R(a,b)$
仅在区间 $[a,b]$ 上等概率分布,密度 $\frac{1}{b-a}$
指数分布 $E(\lambda)$
概率密度函数 $f(x)=\begin{cases}\lambda e^{-\lambda x},x>0\\ 0,x\le 0\end{cases}$
分布函数 $F(x)=\begin{cases}1-e^{-\lambda x},x\ge 0\\ 0,x<0\end{cases}$
指数分布也具有无记忆性
正态分布(高斯分布)$N(\mu,\sigma^2)$
概率密度函数 $f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$
正态分布的线性函数的分布:
$$X\sim N(\mu,\sigma^2)\Rightarrow kX+c\sim N(k\mu+c,k^2\sigma)$$
$$X\sim N(\mu,\sigma^2)\Rightarrow \frac{X-\mu}{\sigma}\sim N(0,1)$$
二维正态分布 $N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$ 中 $\rho$ 代表两变量的相关性,两变量的边缘分布都是一维正态分布
联合密度和边缘密度
联合密度(点密度) $\overset{积分}\longrightarrow$ 边缘密度(线密度) $\overset{积分}\longrightarrow$ 事件概率(面概率)
正态分布的可加性
若 $X,Y$ 相互独立:
$$X\sim N(\mu_1,\sigma_1),Y\sim N(\mu_2,\sigma_2)\\ \Rightarrow X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2),X-Y\sim N(\mu_1-\mu_2,\sigma_1^2+\sigma_2^2)$$
(甚至正态分布相乘也是正态分布)
二维随机变量函数的密度函数
由 $f(x,y)$ 求 $X=g(x,y)$ 的密度函数:根据 $g(x,y)$ 表达式画出图,进行积分求 $F_Z(z)$,再求导得 $f_Z(z)$
卷积公式
若 $X,Y$ 相互独立,$Z=X+Y$:
$$f_Z(z)=\int_{-\infty}^{\infty}f_X(x)f_Y(z-x)dx$$
4 随机变量的数字特征
期望
离散随机变量期望(仅当收敛时有定义):
$$E(X)=\sum_{i=1}^{\infty}a_ip_i$$
连续随机变量期望:
$$E(X)=\int_{-\infty}^{\infty}xf(x)dx$$
期望的性质:
- $E(kX+c)=kE(X)+c$
- $X,Y$ 相互独立时,$E(XY)=E(X)E(Y)$
方差
方差在期望的基础上定义:
$$D(X)=E\lbrace [X-E(X)]^2\rbrace =E(X^2)-[E(X)]^2$$
常见分布的期望和方差
分布 | 期望 | 方差 | $X^2$ 期望 |
---|---|---|---|
$B(n,p)$ | $np$ | $np(1-p)$ | $np(1-p)+(np)^2$ |
$P(\lambda)$ | $\lambda$ | $\lambda$ | $\lambda^2+\lambda$ |
$R(a,b)$ | $\frac{a+b}{2}$ | $\frac{(b-a)^2}{12}$ | |
$E(\lambda)$ | $\frac{1}{\lambda}$ | $\frac{1}{\lambda^2}$ | $\frac{2}{\lambda^2}$ |
$H(N,M,n)$ | $\frac{nM}{N}$ | 会算 | |
$N(\mu,\sigma^2)$ | $\mu$ | $\sigma^2$ | |
几何分布 | $\frac{1}{p}$ | $\frac{1-p}{p^2}$ | $\frac{2-p}{p^2}$ |
协方差
协方差反映两个随机变量总体误差的情况:
$$\text{cov}(X,Y)=E\lbrace [X-E(X)][Y-E(Y)]\rbrace =E(XY)-E(X)E(Y)$$
协方差的性质:
- $\text{cov}(X,c)=0$
- $\text{cov}(X,Y)=\text{cov}(Y,X)$
- $\text{cov}(\sum_i X_i,\sum_j Y_j)=\sum_i\sum_j\text{cov}(X_i,Y_j)$
方差是协方差的特例:
$$D(X)=\text{cov}(X,X)$$
相关系数反映两个随机变量的线性相关性:
$$\rho(X,Y)=\frac{\text{cov}(X,Y)}{\sqrt{D(X)D(Y)} }$$
相互独立一定不相关,不相关不一定相互独立。
切比雪夫不等式
$$P(|X-\mu|\ge\epsilon)\le \frac{\sigma^2}{\epsilon^2}$$
用于估算随机变量偏移均值的概率上界
柯西-许瓦兹不等式
$$[E(XY)]^2\le E(X^2)E(Y^2)$$
用于比较矩的大小
5 随机变量序列的极限
大数定律
切比雪夫大数定律:对于两两不相关的随机变量序列,如果 $D(X_i)$ 有界,那么 $\frac{1}{n}\sum_{i=1}^{n}(X_i-E(X_i))$ 依概率收敛于 $0$
辛钦大数定律:对于独立同分布的随机变量序列,$\frac{1}{n}i\sum_{i=1}^{n}X_i$ 依概率收敛于 $E(X)$
伯努利大数定律:辛钦大数定律对于0-1分布的特例
中心极限定理
列维-林德伯格中心极限定理:对于独立同分布的随机变量序列:
$$\underset{n\rightarrow\infty}\lim P\left(\sqrt{n}\frac{\overline X-\mu}{\sigma}\le x\right)=\Phi(x)$$
其中 $\Phi(x)$ 是 $N(0,1)$ 的分布函数
即可以近似认为:
$$\sum_{i=1}^n X_i\sim N(n\mu,n\sigma^2),\overline X\sim N(\mu,\frac{\sigma^2}{n})$$
德莫弗-拉普拉斯中心极限定理:列维-林德伯格中心极限定理对于0-1分布的特例
根据中心极限定理,二项分布在 $n$ 较大时也可以用正态分布近似,优点是不需要 $p$ 趋于零
7 数理统计的基本概念
统计量
一个随机变量是样本的函数,则称其为统计量,特点是不包含总体分布中的任何未知参数
样本均值的方差:$D(\overline X)=\frac{D(X)}{n}$
样本方差:$S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline X)^2$
样本方差不等于样本的二阶中心矩
- 解释一:因为样本均值是样本对总体均值的估计,使用样本均值引入了一个自由度的消耗(即一个线性约束 $\overline X=\frac{1}{n}\sum_{i=1}^{n}X_i$)
- 解释二:样本均值与总体均值存在的偏差被忽视了,因此样本方差是对总体方差的低估
卡方分布 $\chi^2(n)$
$n$ 个相互独立且服从标准正态分布变量的平方和服从卡方分布,其中 $n$ 称为自由度
卡方分布的均值和方差:$Y\sim \chi^2(n)\Rightarrow E(Y)=n,D(Y)=2n$
卡方分布具有可加性(根据定义显然)
学生分布 $t(n)$
若 $X,Y$ 相互独立且 $X\sim N(0,1),Y\sim\chi^2(n)$,则
$$\frac{X}{\sqrt{\frac{Y}{n} } }\sim t(n)$$
其中 $n$ 称为自由度
性质:当 $x\rightarrow\infty$ 时,密度函数趋于标准正态分布的密度函数
解释:$\sqrt{\frac{Y}{n}}$ 其实是 $n$ 个变量标准差的观测值,趋于 1
F 分布 $F(m,n)$
若 $X,Y$ 相互独立且 $X\sim\chi^2(m),Y\sim\chi^2(n)$,则
$$\frac{\frac{X}{m} }{\frac{Y}{n} }\sim F(m,n)$$
其中 $(m,n)$ 称为自由度
性质:若 $F\sim F(m,n)$,则 $\frac{1}{F}\sim F(n,m)$
解释:F 其实是变量方差的观测值的比值
抽样分布
统计量的分布都叫抽样分布
对于正态总体 $N(\mu,\sigma^2)$ 的样本:
- $\overline X\sim N(\mu,\frac{\sigma^2}{n})$
- $\frac{n-1}{\sigma^2}S^2\sim\chi^2(n-1)$
- $\overline X$ 与 $S^2$ 相互独立(仅限正态分布)
8 参数估计
用于估计未知参数的样本的函数称为估计量
估计量的分布都是指随样本的分布
矩估计
矩估计的思想是用样本原点矩来替换总体原点矩,从而估计与总体原点矩有关的未知参数
$$\hat\sigma^2=S_n^2$$
$$\hat\mu=\overline X$$
极大似然估计
似然函数:$L(\theta)=\prod_{i=1}^nf(x_i;\theta)$,其中 $x_i$ 都视为常数
极大似然估计量:$\hat\theta=\text{argmax }L(\theta)$
似然函数通常是多个概率密度函数的乘积,因此通常通过解方程 $\frac{d}{d\theta}\ln L(\theta)=0$ 来计算极大似然估计
无偏估计
无偏估计 $\hat\theta$ 满足 $E(\hat\theta)=\theta$
无偏估计中估计值方差较小的称有效
相合估计量在样本增多时估计值的方差趋近于零
置信区间
找一个包含目标参数且随样本服从某一确定分布的变量,从而根据分位数转化得到目标参数的范围
置信区间以估计值为中心,$1-\alpha$ 是在样本观测值下估计量在置信区间内的概率
概率论与数理统计 复习笔记