概率论与数理统计 复习笔记

概率论与数理统计 复习笔记

1 随机事件与概率

概率的加法公式

$$P(\cup_{i=1}^{n}A_i)=\sum_i^n P(A_i)-\sum_{1\le i<j\le n}P(A_iA_j)+\sum_{1\le i<j<k\le n} P(A_iA_jA_k)-\cdots+(-1)^nP(A_i\cdots A_j)$$

类似容斥原理

伯努利试验与二项概率

伯努利试验:只有成功或失败两种结果的随机试验

二项概率:$n$ 重伯努利试验恰好成功 $k$ 次的概率

全概率公式和贝叶斯公式

假设 $A_1,A_2,\cdots,A_n$ 构成样本空间的一个划分,$B$ 是某个事件

  • 全概率公式:

$$P(B)=\sum_{i=1}^nP(A_i)P(B|A_i)$$

  • 贝叶斯公式:当 $P(B)>0$ 时

$$P(A_i|B)=\frac{P(A_iB)}{P(B)}=\frac{P(A_i)P(B|A_i)}{\sum_{l=1}^{n}P(A_l)P(B|A_l)}$$

2 离散型随机变量及其分布

二项分布 $B(n,p)$

$n$ 重伯努利试验成功的次数 $X$ 服从二项分布
$$P(X=k)=C_n^kp^k(1-p)^{n-k}$$

$n=1$ 的二项分布称为0-1分布

逆二项分布

伯努利试验中,成功 $n$ 次时已进行的试验次数 $X$ 服从逆二项分布

$$P(X=k)=C_{k-1}^{n-1}p^n(1-p)^{k-n},k=n,n+1,\cdots$$

即前 $k-1$ 次试验恰好成功 $n-1$ 次,且第 $k$ 次试验成功

超几何分布 $H(N,M,n)$

$N$ 个物品中有 $M$ 个目标物品,无放回抽样 $n$ 次抽到的目标物品个数 $X$ 服从超几何分布

$$P(X=k)=\frac{C_M^kC_{N-M}^{n-k} }{C_N^n}$$

当 $N\gg n$ 时,超几何分布近似于二项分布,即可以视作有放回抽样

泊松分布 $P(\lambda)$

泊松定理:记 $\lambda=np$

$$\underset{n\rightarrow\infty}\lim C_n^k p^k(1-p)^{n-k}=e^{-\lambda}\cdot \frac{\lambda^k}{k!}$$

即当 $n$ 较大时,二项分布近似于泊松分布

$$P(X=k)=e^{-\lambda}\cdot \frac{\lambda^k}{k!}$$

而泊松分布的概率计算更容易

需要注意由于 $n\rightarrow \infty$,为了避免 $\lambda\rightarrow\infty$,需要 $p\rightarrow 0$

几何分布

伯努利试验中,成功一次时已进行的试验次数 $X$ 服从几何分布

$$P(X=k)=p(1-p)^{k-1}$$

几何分布是逆二项分布的一种特殊情况

几何分布的无记忆性

$$P(X>s+t|X>s)=P(X>t)$$

分布的可加性

二项分布可加性(可拓展):
$$X\sim B(m,p),Y\sim B(n,p)\Rightarrow X+Y\sim B(m+n,p)$$

泊松分布可加性(可拓展):
$$X\sim P(\lambda_1),Y\sim P(\lambda_2)\Rightarrow X+Y\sim P(\lambda_1+\lambda_2)$$

可加性的前提都是相互独立

二维随机变量

边缘概率函数不能唯一确定联合概率函数

分布独立性的定义:联合密度函数等于边缘密度函数的乘积

3 连续性随机变量及其分布

分布函数和概率密度函数

分布函数 $F(x)$:可以表示概率

概率密度函数 $f(x)$:密度,不能表示概率

$F(x)=\int_{-\infty}^{\infty}f(x)dx$

均匀分布 $R(a,b)$

仅在区间 $[a,b]$ 上等概率分布,密度 $\frac{1}{b-a}$

指数分布 $E(\lambda)$

概率密度函数 $f(x)=\begin{cases}\lambda e^{-\lambda x},x>0\\ 0,x\le 0\end{cases}$

分布函数 $F(x)=\begin{cases}1-e^{-\lambda x},x\ge 0\\ 0,x<0\end{cases}$

指数分布也具有无记忆性

正态分布(高斯分布)$N(\mu,\sigma^2)$

概率密度函数 $f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

正态分布的线性函数的分布:
$$X\sim N(\mu,\sigma^2)\Rightarrow kX+c\sim N(k\mu+c,k^2\sigma)$$

$$X\sim N(\mu,\sigma^2)\Rightarrow \frac{X-\mu}{\sigma}\sim N(0,1)$$

二维正态分布 $N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)$ 中 $\rho$ 代表两变量的相关性,两变量的边缘分布都是一维正态分布

联合密度和边缘密度

联合密度(点密度) $\overset{integrate}\longrightarrow$ 边缘密度(线密度) $\overset{integrate}\longrightarrow$ 事件概率(面概率)

正态分布的可加性

若 $X,Y$ 相互独立:
$$X\sim N(\mu_1,\sigma_1),Y\sim N(\mu_2,\sigma_2)\\ \Rightarrow X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2),X-Y\sim N(\mu_1-\mu_2,\sigma_1^2+\sigma_2^2)$$

(甚至正态分布相乘也是正态分布)

二维随机变量函数的密度函数

由 $f(x,y)$ 求 $X=g(x,y)$ 的密度函数:根据 $g(x,y)$ 表达式画出图,进行积分求 $F_Z(z)$,再求导得 $f_Z(z)$

卷积公式

若 $X,Y$ 相互独立,$Z=X+Y$:
$$f_Z(z)=\int_{-\infty}^{\infty}f_X(x)f_Y(z-x)dx$$

4 随机变量的数字特征

期望

离散随机变量期望(仅当收敛时有定义):
$$E(X)=\sum_{i=1}^{\infty}a_ip_i$$

连续随机变量期望:
$$E(X)=\int_{-\infty}^{\infty}xf(x)dx$$

期望的性质:

  • $E(kX+c)=kE(X)+c$
  • $X,Y$ 相互独立时,$E(XY)=E(X)E(Y)$

方差

方差在期望的基础上定义:
$$D(X)=E{[X-E(X)]^2}=E(X^2)-[E(X)]^2$$

常见分布的期望和方差

分布 期望 方差 $X^2$ 期望
$B(n,p)$ $np$ $np(1-p)$ $np(1-p)+(np)^2$
$P(\lambda)$ $\lambda$ $\lambda$ $\lambda^2+\lambda$
$R(a,b)$ $\frac{a+b}{2}$ $\frac{(b-a)^2}{12}$
$E(\lambda)$ $\frac{1}{\lambda}$ $\frac{1}{\lambda^2}$ $\frac{2}{\lambda^2}$
$H(N,M,n)$ $\frac{nM}{N}$ 会算
$N(\mu,\sigma^2)$ $\mu$ $\sigma^2$
几何分布 $\frac{1}{p}$ $\frac{1-p}{p^2}$ $\frac{2-p}{p^2}$

协方差

协方差反映两个随机变量总体误差的情况:
$$\text{cov}(X,Y)=E{[X-E(X)][Y-E(Y)]}=E(XY)-E(X)E(Y)$$

协方差的性质:

  • $\text{cov}(X,c)=0$
  • $\text{cov}(X,Y)=\text{cov}(Y,X)$
  • $\text{cov}(\sum_i X_i,\sum_j Y_j)=\sum_i\sum_j\text{cov}(X_i,Y_j)$

方差是协方差的特例:
$$D(X)=\text{cov}(X,X)$$

相关系数反映两个随机变量的线性相关性:
$$\rho(X,Y)=\frac{\text{cov}(X,Y)}{\sqrt{D(X)D(Y)} }$$

相互独立一定不相关,不相关不一定相互独立。

切比雪夫不等式

$$P(|X-\mu|\ge\epsilon)\le \frac{\sigma^2}{\epsilon^2}$$

用于估算随机变量偏移均值的概率上界

柯西-许瓦兹不等式

$$[E(XY)]^2\le E(X^2)E(Y^2)$$

用于比较的大小

5 随机变量序列的极限

大数定律

切比雪夫大数定律:对于两两不相关的随机变量序列,如果 $D(X_i)$ 有界,那么 $\frac{1}{n}\sum_{i=1}^{n}(X_i-E(X_i))$ 依概率收敛于 $0$

辛钦大数定律:对于独立同分布的随机变量序列,$\frac{1}{n}i\sum_{i=1}^{n}X_i$ 依概率收敛于 $E(X)$

伯努利大数定律:辛钦大数定律对于0-1分布的特例

中心极限定理

列维-林德伯格中心极限定理:对于独立同分布的随机变量序列:
$$\underset{n\rightarrow\infty}\lim P\left(\sqrt{n}\frac{\overline X-\mu}{\sigma}\le x\right)=\Phi(x)$$
其中 $\Phi(x)$ 是 $N(0,1)$ 的分布函数

即可以近似认为:
$$\sum_{i=1}^n X_i\sim N(n\mu,n\sigma^2),\overline X\sim N(\mu,\frac{\sigma^2}{n})$$

德莫弗-拉普拉斯中心极限定理:列维-林德伯格中心极限定理对于0-1分布的特例

根据中心极限定理,二项分布在 $n$ 较大时也可以用正态分布近似,优点是不需要 $p$ 趋于零

7 数理统计的基本概念

统计量

一个随机变量是样本的函数,则称其为统计量,特点是不包含总体分布中的任何未知参数

样本均值的方差:$D(\overline X)=\frac{D(X)}{n}$

样本方差:$S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline X)^2$

样本方差不等于样本的二阶中心矩

  • 解释一:因为样本均值是样本对总体均值的估计,使用样本均值引入了一个自由度的消耗(即一个线性约束 $\overline X=\frac{1}{n}\sum_{i=1}^{n}X_i$)
  • 解释二:样本均值与总体均值存在的偏差被忽视了,因此样本方差是对总体方差的低估

卡方分布 $\chi^2(n)$

$n$ 个相互独立且服从标准正态分布变量的平方和服从卡方分布,其中 $n$ 称为自由度

卡方分布的均值和方差:$Y\sim \chi^2(n)\Rightarrow E(Y)=n,D(Y)=2n$

卡方分布具有可加性(根据定义显然)

学生分布 $t(n)$

若 $X,Y$ 相互独立且 $X\sim N(0,1),Y\sim\chi^2(n)$,则
$$\frac{X}{\sqrt{\frac{Y}{n} } }\sim t(n)$$

其中 $n$ 称为自由度

性质:当 $x\rightarrow\infty$ 时,密度函数趋于标准正态分布的密度函数

解释:$\sqrt{\frac{Y}{n}}$ 其实是 $n$ 个变量标准差的观测值,趋于 1

F 分布 $F(m,n)$

若 $X,Y$ 相互独立且 $X\sim\chi^2(m),Y\sim\chi^2(n)$,则
$$\frac{\frac{X}{m} }{\frac{Y}{n} }\sim F(m,n)$$

其中 $(m,n)$ 称为自由度

性质:若 $F\sim F(m,n)$,则 $\frac{1}{F}\sim F(n,m)$

解释:F 其实是变量方差的观测值的比值

抽样分布

统计量的分布都叫抽样分布

对于正态总体 $N(\mu,\sigma^2)$ 的样本:

  • $\overline X\sim N(\mu,\frac{\sigma^2}{n})$
  • $\frac{n-1}{\sigma^2}S^2\sim\chi^2(n-1)$
  • $\overline X$ 与 $S^2$ 相互独立(仅限正态分布)

8 参数估计

用于估计未知参数的样本的函数称为估计量

估计量的分布都是指随样本的分布

矩估计

矩估计的思想是用样本原点矩来替换总体原点矩,从而估计与总体原点矩有关的未知参数

$$\hat\sigma^2=S_n^2$$

$$\hat\mu=\overline X$$

极大似然估计

似然函数:$L(\theta)=\prod_{i=1}^nf(x_i;\theta)$,其中 $x_i$ 都视为常数

极大似然估计量:$\hat\theta=\text{argmax }L(\theta)$

似然函数通常是多个概率密度函数的乘积,因此通常通过解方程 $\frac{d}{d\theta}\ln L(\theta)=0$ 来计算极大似然估计

无偏估计

无偏估计 $\hat\theta$ 满足 $E(\hat\theta)=\theta$

无偏估计中估计值方差较小的称有效

相合估计量在样本增多时估计值的方差趋近于零

置信区间

找一个包含目标参数且随样本服从某一确定分布的变量,从而根据分位数转化得到目标参数的范围

置信区间以估计值为中心,$1-\alpha$ 是在样本观测值下估计量在置信区间内的概率


作者

Cu_OH_2

发布于

2024-06-03

更新于

2024-06-19

许可协议