第二章
\(n\)重伯努利分布、二项分布
\[P\{X=k\}=\binom{n}{k}p^k(1-p)^{n-k}
\]
记为\(X \sim B(n,p)\)。
泊松分布
\[P\{X=k\}=\frac{\lambda^ke^{-\lambda}}{k!}
\]
记为\(X\sim \pi(\lambda)\)。
泊松定理
\[\lim_{n\rightarrow \infty}P\{X=k\}=\lim_{n\rightarrow \infty}\binom{n}{k}p^k(1-p)^{n-k}=\frac{\lambda^ke^{-\lambda}}{k!}
\]
当\(n\)很大,\(p\)很小时,二项分布的分布律近似与泊松分布。
连续型随机变量及其概率密度
\[\int_{-\infty}^{\infty}f(x)\text{d}x=1\f(x)\ge0,-\infty<x<\infty\P\{a\le X\le b\}=\int_a^bf(x)\text{d}x
\]
由第三条可推出,\(P\{X=k\}=0,k\)为常数。
均匀分布
\[f(x)=\begin{cases} \frac{1}{b-a}, &\,a<x<b\0, &\, otherwise\end{cases}
\]
记为\(X\sim U(a,b)\)。
指数分布
\[f(x)=\begin{cases}\frac{1}{\theta}e^{-x/\theta}, &\, x>0\0, &\, otherwise\end{cases}
\]
其中\(\theta>0\)为常数,称\(X\)服从参数为\(\theta\)的指数分布,具有无记忆性\((P\{X>s+t|X>s\}=P\{X>t\})\)。
分布函数
\[F(x)=P\{X\le x\},-\infty<x<\infty
\]
\[P\{a<X\le b\}=P\{X\le b\}-P\{X\le a\}=F(b)-F(a)
\]
\(F(x)=\sum_{x_k\le x}p_x\)。对于连续型的随机变量,\(F(x)=P\{X\le x\}=\int_{-\infty}^xf(x)\text{d}x\)。
二维随机变量
(离散型略)
\[f(x,y)\ge0\\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}f(x,y)\text{d}x\text{d}y=1\P\{(X,Y)\in G\}=\iint_Gf(x,y)\text{d}x\text{d}y
\]
边缘分布
离散型:
\(X\)的边缘分布律为:
\[P\{X=x_i\}=\sum_{j=1}^{\infty} P\{X=x_i,Y=y_j\}=\sum_{j=1}^{\infty}p_{ij}
\]
连续型:
\[f_{X}(x)=\int_{\infty}^{-\infty}f(x,y)\text{d}y\f_{Y}(y)=\int_{\infty}^{-\infty}f(x,y)\text{d}x
\]
\(f_{X}(x),f_{Y}(x)\)为关于\(X,Y\)的边缘概率密度。
随机变量函数的分布
\(Z=X+Y\)
\[f_X*f_Y=\int_{-\infty}^{\infty}f_X(x)f_Y(z-x)\text{d}x
\]
\(Z_1=\max(X,Y)\)
\[F_{\max}(z)=F_X(z)F_Y(z)
\]
\(Z_2=\min(X,Y)\)
\[F_{\min}(z)=1-[1-F_X(z)][1-F_Y(z)]
\]
第三章 随机变量的数字特征(期望、方差、etc)
\[E(x)=\begin{cases}\sum_{i=1}^{\infty}x_kp_k, &\, \text{discrete type} \\int_{-\infty}^{\infty}xf(x)\text{d}x, &\, \text{continuous type}\end{cases}\D(x)=\begin{cases}\sum_{k=1}^{\infty}(x_k-E(X))^2p_k,&\,\text{D.T}\\int_{-\infty}^{\infty}(x-E(X))^2f(x)\text{d}x,&\,\text{C.T}\end{cases}=E(X^2)-[E(x)]^2
\]
\(X\sim \pi(X)\)
\[E(X)=\lambda\D(X)=\lambda\E(X^2)=\lambda^2+\lambda
\]
\(X\sim B(n,p)\)
\[E(X)=np\D(X)=np(1-p)
\]
\(X\)服从参数为\(\theta\)的指数分布
\[E(x)=\theta\\D(x)=\theta^2
\]
\(E(Y)=E[g(X)]=\begin{cases}\sum_{k=1}^{\infty} g(x_k)p_k,&\, \text{D.T}\\ \int_{-\infty}^{\infty}g(x)f(x)\text{d}x,&\,C.T\end{cases}\)
二维随机变量\(V=g(X,Y)\)
\[E(V)=E[g(X,Y)]=\begin{cases}\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(x,y)f(x,y)\text{d}x\text{d}y,&\,\text{D.T}\\sum_{i=1}^{\infty}\sum_{j=1}^{\infty}g(x_i,y_i)p_{ij},&\,\text{C.T}\end{cases}
\]
数学期望的性质(加减乘)
方差的性质
\[D(C)=0\D(CX)=C^2D(X)\D(X+C)=D(X)\D(X+Y)=D(X)+D(Y)+2(E(XY)-E(X)E(Y))=D(X)+D(Y)+2\text{Cov}(X,Y)\\text{specially for independent,}D(X+Y)=D(X)+D(Y)\\text{if }E(X)=C,D(X)=0
\]
协方差
\[\text{Cov}(X,Y)=E(XY)-E(X)E(Y)\\text{Cov}(X,X)=D(X)\\text{Cov}(aX,bY)=ab\text{Cov}(X,Y)\\text{Cov}(X_1+X_2,Y)=\text{Cov}(X_1,Y)+\text{Cov}(X_2,Y)
\]
相关系数\(\rho\)
\[\rho_{XY}=\frac{\text{Cov}(X,Y)}{\sqrt{D(X)D(Y)}}
\]
\(\rho_{XY}=0<--->X,Y\)不相关\(<---X,Y\)相互独立。
第四章 正态分布
\[f(x)=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^xe^{-(t-\mu)^2/(2\sigma^2)}\text{d}t\\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}\\Phi(x)=\int_{-\infty}^x\varphi(t)\text{d}t=\int_{-\infty}^x\frac{1}{\sqrt{2\pi}}e^{-x^2/2}\text{d}t
\]
\[\Phi(-a)=1-\Phi(a)\\Phi(z_a)=1-P\{X>z_a\}=1-a\z_{1-a}=-z_a
\]
对于\(Y_1\sim N(\mu_1,\sigma_1^2),Y_2\sim N(\mu_2,\sigma_2^2)\),且\(Y_1,Y_2\)相互独立,则有
\[Y_1+Y_2\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2)
\]
第五章 样本及抽样分布
\((X_1,X_2,...,X_n)\)的联合概率密度为
\[F^*(x_1,x_2,...,x_n)=\prod_{i=1}^n F(x_i)
\]
统计量
- 样本均值:\(\overline{X}=\frac{1}{n}\sum_{i=1}^nX_i\)
- 样本方差:\(S^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\overline{X})^2=\frac{1}{n-1}\sum_{i=1}^n(X_i^2-n\overline{X}^2)\)
- 样本\(k\)阶(原点)矩:\(A_k=\frac{1}{n}\sum_{i=1}^nX_i^k,k=1,2,...\)
- ...
经验分布函数
\[F_n(x)=\frac{1}{n}(\# X_i\le x),-\infin < x<+\infin
\]
其中\((\# X_i\le x)\)表示\(X_1,X_2,...\)中小于等于\(x\)的个数。
抽样分布
\(\chi^2\)分布
设\(X_1,X_2,...,X_n\)为来自总体\(N(1,0)\)的样本,则称统计量
\[\chi^2=X_1^2+X_2^2+...+X_n^2
\]
为服从自由度为\(n\)的卡方分布,记为:$\chi^2 \sim \chi^2(n) $
\(\chi^2\)分布的可加性
若$\chi_1^2 \sim \chi^2(n_1) \(,\)\chi_2^2 \sim \chi^2(n_2) \(,且\)\chi_1\(和\)\chi_2\(相互独立,则\)\chi_12+\chi_22 \sim \chi^2(n_1+n_2) $
\(\chi^2\)分布的期望与方差
\(E(\chi^2)=n,D(\chi^2)=2n\)
\(t\)分布
设\(X\sim N(0,1)\),\(Y\sim \chi^2(n)\),且\(X,Y\)相互独立,则称变量\(t=\frac{x}{\sqrt{Y/n}}\)为服从自由度为\(n\)的\(t\)分布。
记为\(t\sim t(n)\)
当\(n\)充分大时,\(t\)分布近似于正态分布,即
\[\lim_{n\rightarrow\infin}f_t(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}
\]
\(t_{1-\alpha}(n)=-t_{\alpha}(n)\),\(n>45\)时,\(t_{\alpha(n)}\approx z_{\alpha}\),\(z_{\alpha}\)为标准正态分布上的\(\alpha\)分位数。
\(F\)分布
设\(U\sim \chi^2(n_1)\),\(V\sim \chi^2(n_2)\),且\(U,V\)相互独立,则称随机变量\(F=\frac{U/n_1}{V/n_2}\)为服从自由度为\(n1,n2\)的\(F\)分布。记为\(F\sim F(n_1,n_2)\)。
若\(F\sim F(n_1,n_2)\),则\(\frac{1}{F} \sim F(n_1,n_2)\)。
\(F_{1-\alpha(n_1,n_2)}=\frac{1}{F_{\alpha}(n_2,n_1)}\)。
正态总体的样本均值与样本方差的分布
设总体\(X\)(无论其满足何种分布)的均值为\(\mu\),方差为\(\sigma^2\),\(X_1,X_2,...,X_n\)都是来自\(X\)的一个样本,\(\overline{X},S^2\)分别是样本均值和样本方差,则有
\[E(\overline{X})=\mu\D(\overline X)=\frac{\sigma^2}{n}\E(S^2)=\sigma^2
\]
设\(X_1,X_2,...,X_n\)是来自正态分布\(N(\mu,\sigma^2)\)的样本,\(\overline{X}\)是样本均值,则有
\[\overline{X}\sim N(\mu,\frac{\sigma^2}{n})
\]
\(S^2\)为样本方差,则有
\[\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) \\frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t(n-1)
\]
\(\overline{X}\)和\(S^2\)相互独立
设\(X_1,...,X_{n_1}\)和\(Y_1,...,Y_{n_2}\)分别来自正态总体\(N(\mu_1,\sigma_1^2)\)和\(N(\mu_2,\sigma_2^2)\)的样本,且这两个样本相互独立。\(\overline{X}\)和\(\overline{Y}\)分别是这两个样本的均值,\(S_1^2\)和\(S_2^2\)分别是这两个样本的样本方差,则有
\[\frac{S_1^2/S_2^2}{\sigma_1^2/\sigma_2^2}\sim F(n_1-1,n_2-1)
\]
第六章
矩估计法
\(A_l=E(X^l),l=1,2,...,k\)
使用总体\(X\)的\(1,.2,..,k\)阶矩代替样本的\(1,.2,..,k\)阶矩,代换得答案,解出的结果称为矩估计量。
最大似然估计法
例题:一批产品中含有次品,自其中随机地取75件,发现有10件次品,试求这批产品的次品率\(p(0<p<1)\)的最大似然估计值。
解:考察试验:在这批产品中任取一只产品,观察期是否为次品,引入随机变量
\[X=\begin{cases}1,&\,若取到一只是次品\0,&\,若取到一只不是次品\end{cases}
\]
则\(X\sim B(1,p)\),其分布律为
\[P\{X=x\}=p^x(1-p)^{1-x},x=0,1
\]
设\(x_1,x_2,...,x_n\)是相应的样本值,于是得到似然函数
\[L(p)=\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i},\\ln L(p)=(\sum_{i=1}^nx_i)\ln p+(n-\sum_{i=1}^nx_i)\ln (1-p).
\]
令
\[\frac{\text{d}}{\text{d}p}\ln L = \frac{\sum_{i=1}^nx_i}{p}-\frac{n-\sum_{i=1}^nx_i}{1-p}=0
\]
解得
\[\hat{p}=\frac{1}{n}\sum_{i=1}^nx_i=\overline{x}
\]
注意到,对于任意\(p(0<p<1)\),由于\(0<\sum_{i=1}^nx_i\le n\),即有
\[\frac{\text{d}^2}{\text{d} p}\ln L(p)=-\frac{\sum_{i=1}^nx_i}{p^2}-\frac{n-\sum_{i=1}^nx_i}{(1-p)^2}<0,
\]
故\(\ln L(p)\)在\(\hat{p}=\overline{x}\)取到最大值,因此\(p\)的最大似然估计值为
\[\hat{p}=\frac{1}{n}\sum_{i=1}^nx_i=\overline{x}
\]
\(p\)的最大似然估计量为
\[\hat{p}=\frac{1}{n}\sum_{i=1}^nX_i=\overline{X}
\]
单个总体\(N(\mu,\sigma^2)\)的均值为\(\mu\)的置信区间
(1) 设\(\sigma^2\)已知
取枢轴量:\(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\sim N(0,1)\)
得到\(\mu\)的值置信水平为\(1-\alpha\)的置信区间:
\[\overline{X}\pm \frac{\sigma}{\sqrt{n}}z_{\alpha/2}
\]
概率论公式
原文:https://www.cnblogs.com/xdaniel/p/14861681.html