离散型随机变量(discrete random variable)是只取有限值或者可列无限值的随机变量,通常用\(X\)表示随机变量,用\(x_i\)表示随机变量可能的取值。
一般地,样本空间上的概率测度决定了\(X\)各种取值的概率;如果随机变量的取值用\(x_1,x_2,...\)表示,那么存在满足\(p(x_i)=P(X=x_i)\)和\(\sum \limits_{i}^{}p(x_i)=1\)的函数\(p\),我们称这个函数为随机变量\(X\)的概率质量函数(probability mass function,pmf)或者频率函数(frequency function)。
除了频率函数,有时候利用随机变量的累计分布函数(cumulative distribution function,cdf)比较方便,它定义为:
\[
F(x) = P(X \leq x) , x \in (-\infty,+\infty)
\]
背景:一次试验成功与否 参数:\(p\)
伯努利随机变量只有两个取值:0和1,各自的取值概率分别为\(1-p\)和\(p\)。因此频率函数为:
\[ P(X=x) = p(x) = \left\{\begin{matrix} p, x = 1\\1-p , x = 0 \\ 0,else\end{matrix}\right. \]
另一种有用的表达式:\(p(x) = \left\{ \begin{matrix} p^x(1-p)^{1-x} x=0 或 1\\ 0,else \end{matrix} \right.\)
如果\(A\)是一个事件,那么示性随机变量(indicator random variable)\(I_A\)在A发生时取1,A不发生时取0。
背景:\(n\)次独立试验,每次试验“成功”的概率是\(p\),失败的概率是\(1-p\)。\(n\)次试验中成功的次数\(X\)是参数\(n\)和\(p\)的二项随机变量 参数:\(n\) 和 \(p\)
\(X=k\)的概率p(k)可以通过下面的方式计算:利用乘法原理,任何\(k\)次成功的特定试验序列发生的概率都是\(p^k(1-p)^{n-k}\)。因为\(n\)次试验有\(k\)次成功的排列方式有\(\binom{n}{k}\)种。因此,\(P(X=k)\)是任意特定试验序列的概率乘以这些试验序列的个数:
\[
p(k) = \binom{n}{k}p^k(1-p)^{n-k}
\]
背景:几何分布也是由独立的伯努利试验构造而成的,但是由无穷试验序列得到。每次试验成功的概率为\(p\),\(X\)表示直到第一次成功所做的试验次数。参数:\(k\) 和 \(p\)
\(X=k\)时必然有前面的\(k-1\)次试验失败,第\(k\)试验成功。利用试验的独立性,上述事件发生的概率:
\[
p(k) = P(X = k) = (1-p)^{k-1}p,k=1,2,3...
\]
背景:负二项分布是几何分布的一般化,假设单次试验成功的概率是\(p?\),连续独立地试验直到成功\(r?\)次,\(X?\)表示试验次数 参数:\(n?\) 、\(r?\)和\(p?\)
我们按照如下方式计算\(P(X=k)\):由独立性假设,任意特定试验发生的概率是\(p^r(1-p)^{k-r}\)。最后一次试验结果是成功的,剩余的\(r-1\)次成功出现在剩余的\(k-1\)试验中,因此,
\[
P(X=k) = \binom{k-1}{r-1}p^r(1-p)^{k-r}
\]
背景:盒中\(n\)个球,其中\(r\)个黑球,\(n-r\)个白球。从盒子中无重复的抽取\(m\)个球,抽到黑球的个数。\(X\)是参数为\(r、n\)和\(m\)的超几何随机变量。
\[
P(X=k)= \frac{ \binom{r}{k} \binom{n-r}{m-k}}{\binom{n}{m}}
\]
参数为\(\lambda(\lambda > 0)\)的泊松频率函数(Poisson frequency function)是
\[
P(X=k) = \frac{\lambda^ke^{-\lambda}}{k!},k=0,1,2,...
\]
因为\(e^\lambda = \sum \limits_{k=0}^{\infty}(\lambda^k/k!)\),所以频率之和为1。
当试验次数\(n\)趋于\(\infty\),试验成功概率\(p\)趋于\(0\),且满足\(np=\lambda\)时,泊松分布可由二项分布的极限得到。
证明:二项频率函数是:
\[
P(X=k)=p(k)=\binom{n}{k}p^k(1-p)^{n-k}=\frac{n!}{(n-k)!k!}p^k(1-p)^{n-k}
\]
设\(np=\lambda\),上式转换为:
\[
\begin{align}
p(k)&=\frac{n!}{(n-k)!k!}\left(\frac{\lambda}{n}\right)^k\left(1-\frac{\lambda}{n}\right)^{n-k}\&= \frac{\lambda^k}{k!}\frac{n!}{(n-k)!k!}\frac{1}{n^k}\left( 1-\frac{\lambda}{n} \right)^n\left( 1-\frac{\lambda}{n} \right)^{-k}\\end{align}
\]
当\(n \to \infty\)时,
\[
\frac{\lambda}{n} \to 0 ,\frac{n!}{(n-k)!n^k} \to 1,\left(1- \frac{\lambda}{n} \right)^n \to e^{-\lambda},\left(1-\frac{\lambda}{n}\right)^{-k} \to 1
\]
因此我们有
\[
p(k) \to \frac{\lambda^k e^{-\lambda}}{k!}
\]
对于连续随机变量,频率函数的角色被密度函数(density function)\(f(x)\)取代,它具有如下性质:\(f(x) \geq 0\),\(f\)分段连续且\(\int_{-\infty}^{\infty}f(x)dx = 1\)。如果\(X\)是具有密度函数\(f\)的随机变量,那么对于任意的\(a<b\),\(X\)落在区间\((a,b)\)上概率是密度函数从\(a\)到\(b\)的下方面积:
\[
P(a<X<b) = \int_{a}^{b}f(x)dx
\]
连续随机变量\(X\)的累积分布函数的定义方式与离散型一样:
\[
\begin{align} F(x) &= P(X \leq x) \\
&= \int_{-\infty}^{x}f(u)du
\end{align}
\]
cdf可以用来估计\(X\)落入一个区间内的概率:
\[
P(a \leq X \leq b ) = \int_{a}^{b}f(x)dx = F(b) - F(a)
\]
假设\(F\)是连续随机变量的cdf,在某区间\(I\)上是严格增的,因此在\(I\)的左端点处\(F=0\),右端点处\(F = 1\),\(I\)可能是无界的。在这个假设下,逆函数\(F^{-1}\)存在,如果\(y = F(x)\),那么\(x=F^{-1}(y)\)。分布\(F\)的第\(p\)分位数(quantile)定义为满足\(F(x_p) = p\)或\(P(X \leq x_p) = p\)的\(x_p\)值。特别地,当\(p=\frac{1}{2}\),这相对应于\(F\)的中位数(median),\(p=\frac{1}{4}\)和\(p=\frac{3}{4}\)相对应于\(F\)的下、上四分之一分位数。
区间\([0,1]\)上的均匀随机变量(uniform random variable)用来刻画我们所说的在0到1之间随机选择一个数。区间内的任何实数都是一个可能试验结果,概率模型应该满足落入任何长度\(h\)的子区间内的概率是\(h\)。下面的密度函数满足该要求:
\[
f(x) =\left\{ \begin{matrix} 1, 0 \leq x \leq 1\\ 0,x < 0 或 x > 1 \end{matrix} \right.
\]
这个密度函数称为\([0,1]\)上的均匀密度(uniform density)。一般区间\([a,b]\)上的均匀密度是:
\[
f(x) =\left\{ \begin{matrix} \frac{1}{b-a}, a \leq x \leq b\\ 0,x < a 或 x > b \end{matrix} \right.
\]
这种定义的一个结果是连续随机变量\(X\)取特定值的概率为\(0\):
\[
P(X=c)=\int_{c}^{c}f(x)dx = 0
\]
对于连续随机变量,那么\(P(a<X<b) = P(a \leq X < b) = P(a < X \leq b)\)。注意此事对离散随机变量,上式可能不对。
指数密度函数是(\(\lambda\)越大,密度下降地越快)
\[
f(x) =\left\{ \begin{matrix} \lambda e^{- \lambda x},x \geq 0 \\ 0,x < 0 \end{matrix} \right.
\]
指数分布的累积分布函数为:
\[
F(x) = \int_{-\infty}^{x}f(u)du = \left\{ \begin{matrix} 1-e^{-\lambda x} , x \geq 0 \\ 0, x < 0 \end{matrix} \right.
\]
指数分布常用来刻画生命周期或者等待时间,这是一般用\(t\)代替\(x\)。假设我们考虑用指数随机变量来刻画电子元件的寿命,且元件已经生存时长\(s\),我们计算它至少能再存活\(t\)个时间单位的概率,也即计算\(P(T > t+s | T > s)\):
\[
\begin{align*}
P(T>t+s|T>s) &= \frac{P(T>t+s \cap T>s)}{P(T>s)} \&= \frac{P(T>t+s)}{P(T>s)} \&= \frac{1 - F(t+s)}{1-F(s)} \&= \frac{e^{-\lambda(t+s)}}{e^{-\lambda s}} \&= e^{-\lambda t}
\end{align*}
\]
我们看到元件至少能再存活\(t?\)个时间单位的概率不依赖于\(s?\)。因此,指数分布被认为是无记忆性(memoryless)。
伽马密度函数依赖于两个参数----\(\alpha\)和\(\lambda\):
\[
g(t) =\left\{ \begin{matrix} \frac {\lambda ^ \alpha}{\Gamma(\alpha)} t^{\alpha-1}e^{-\lambda t},t \geq 0 \\ 0, t \leq 0 \end{matrix} \right.
\]
因此,密度函数在\(\alpha > 0\),\(\lambda > 0\)上定义完好,全积分等于1。伽马函数\(\Gamma(x)\)定义为:
\[
\Gamma(x) = \int_{0}^{\infty}u^{x-1}e^{-u}du,x > 0
\]
注意,如果\(\alpha = 1\),伽马密度等价于指数密度,参数\(\alpha\)称为形状参数(shape parameter),参数称为尺度参数(scale parameter)。变动\(\alpha\)改变密度的形状,而变动\(\lambda\)仅改变测量单位(比方说,从秒到分钟),不影响密度的形状。
正态分布在概率论和数理统计中扮演者重要的角色,Carl Friedrich Gauss在测量误差模型时提出这个分布,因此又称为高斯分布(中心极限定理是正态分布广泛使用的理论基础)。粗略来说,中心极限定理是说如果一个随机变量是许多独立随机变量之和,那么它就近似服从正态分布。正态分布的密度函数依赖于两个参数,即\(\mu\)和\(\sigma\),其中\(\mu \in (-\infty,\infty)\) ,\(\sigma > 0\)。
\[
f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-(x-u)^2/2\sigma ^ 2}, -\infty \leq x \leq \infty
\]
参数\(\mu\)和\(\sigma\)分别称为正态密度的均值(mean)和标准差(standard deviation),简记为$X \(服从\)N(\mu,\sigma^2)$
由密度函数的形状可以看出密度关于\(\mu\)对称,\(f(\mu-x) = f(\mu + x)\),它有一个最大值,且此处下降的速率依赖于\(\sigma\),正态密度有时称为钟形曲线,\(\mu = 0\),\(\sigma = 1\)的特殊形式称为标准正态密度。它的cdf记为$\Phi \(,密度为\)\phi $
贝塔密度用来刻画\([0,1]\)区间上的随机变量:
\[
f(u) = \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}u^{a-1}(1-u)^{b-1} ,0 \leq u \leq 1
\]
背景:假设随机变量\(X\)有密度函数\(f(x)\),对于某一给定的函数\(g\),我们经常需要计算\(Y=g(X)\)的密度函数。通常,将\(X\)的密度和cdf记为\(f_X\)和\(F_X\);\(Y\)的密度和cdf记为\(f_Y\)和\(F_Y\)。
假设\(X\)~\(N(\mu,\sigma^2)\),\(Y=aX+b\),其中$a > 0 \(。\)Y$的累积分布函数是:
\[
F_Y(y) = P(Y \leq y) = P(aX+b \leq y) = P(X \leq \frac{y-b}{a}) = F_X(\frac{y-b}{a})
\]
因此,
\[
f_Y(y) = \frac{d}{dy}F_x(\frac{y-b}{a}) = \frac{1}{a}f_X(\frac{y-b}{a})
\]
因为\(f_x\)是参数为\(\mu\)和\(\sigma\)的正态密度函数,替代上式后,我们得到:
\[
f_Y(y) =\frac{1}{a\sigma\sqrt{2\pi}} exp {\left [ -\frac{1}{2}\left( \frac{y-b-a\mu}{a\sigma}\right) ^ 2\right ]}
\]
由此,我们看到\(Y\)服从参数为\(a\mu+b\)和\(a\sigma\)的正态分布。
其实,a<0时,上面结论依然成立。
命题:如果\(X\)~\(N(\mu,\sigma^2)\),\(Y=aX+b\),那么\(Y\) ~\(N(a\mu+b,a^2\sigma^2)\)
此结论对于使用正态分布计算概率十分有用。假设\(X\)~\(N(\mu,\sigma^2)\),对某些数值\(x_0\)和\(x_1\),我们希望得到\(P(x_0 < X < x_1)\),考虑随机变量:
\[
Z = \frac{X - \mu}{\sigma} = \frac{1}{\sigma}X-\frac{\mu}{\sigma}
\]
那么\(Z\)~\(N(0,1)\),即\(Z\)服从标准正态分布,因此:
\[
F_X(x) = P(X \leq x) = P(\frac{X-\mu}{\sigma} \leq \frac{x-\mu}{\sigma})=P(Z \leq \frac{x-\mu}{\sigma}) = \Phi(\frac{x-\mu}{\sigma})
\]
因此,我们有
\[
P(x_0 \leq X \leq x_1) = F_X(x_1)-F_X(x_0)=\Phi(\frac{x_1-\mu}{\sigma})-\Phi(\frac{x_0-\mu}{\sigma})
\]
因此,我们有以下结论:
若\(X\)~\(N(\mu,\sigma^2)\),则\(X\)偏离\(\mu\)的值小于\(\sigma 、 2\sigma、3\sigma\)的概率分别为:
计算\(X=Z^2\)的密度,其中\(Z\)~\(N(0,1)\)。
\[
F_X(x) = P(X \leq x)=P(-\sqrt{x} \leq Z \leq \sqrt{x})=\Phi(\sqrt{x})-\Phi(-\sqrt{x})
\]
我们通过cdf的微分找到\(X\)的密度,因为\(\Phi'(x) = \phi(x)\),利用链式法则求解得到:
\[
f_X(x) = \frac{1}{2}x^{-1/2}\phi(\sqrt{x}) + 1/2x^{-1/2}\phi(\sqrt{x})=x^{-1/2}\phi(x)
\]
最后一步利用了\(\phi\)的对称性。由最后的表达式我们得到:
\[
f_X(x) = \frac{x^{-1/2}}{\sqrt{2\pi}}e^{-x/2},x \geq 0
\]
利用一般通用原则可以识别出这是一个伽马密度。假设两个密度具有形式\(k_1h(x)\)和\(k_2h(x)\),由于他们的积分都是\(1\),所以\(k_1=k_2\)。现在,与\(\alpha = \lambda = 1/2\)的伽马密度相比,我们可以得到这里的\(f(x)\)是伽马密度,\(\Gamma(\frac{1}{2})=\sqrt{\pi}\)。这个密度又称为自由度(degree of freedom)为\(1\)的卡方密度(chi-square density)
原文:https://www.cnblogs.com/evian-jeff/p/11386384.html