概率质量函数 (Probability Mass Function):对于离散型变量,我们先定义?个随机变量,然后? ~ 符号来说明它遵循的分布:x~P (x) ,函数 P 是随机变量 x 的 PMF。
例如, 考虑?个离散型变量 x 有 k 个不同的值,我们可以假设 x 是均匀分布的 (也就是将它的每个值视为等可能的),通过将它的 PMF 设为:
$P(\mathrm{x}=x_{i})=\frac{1}{k}$
对于所有的 i 都成?。
研究对象是连续型时,可以引?同样的概念。如果?个函数 p 是概率密度函数 (Probability Density Function):
? 分布满??负性条件:$\forall x \in \mathrm{x},p(x)\geqslant 0$
? 分布满?归?化条件:$\int_{-\infty}^\infty p(x)=1$
例如在 (a, b) 上的均匀分布:
$U(x;a,b)=\frac{1_{ab(x)}}{b-a}$
这? $1_{ab(x)} $表?在 (a, b) 内为 1,否则为 0。
1.2.3 累积分布函数
累积分布函数 (Cummulative Distribution Function) 表?对?于 x 的概率的积分:
$CDF(x)=\int_{-\infty}^x p(t)dt=1$
边缘概率 (Marginal Probability):如果我们知道了?组变量的联合概率分布,但想要了解其中?个?集的概率分布。这种定义在?集上的概率分布被称为边缘概率分布。
例如,假设有离散型随机变量 $\mathrm{x}$和$\mathrm{y}$,并且我们知道$P(\mathrm{x}, \mathrm{y})$。 我们可以依据下面的求和法则来计算$P(\mathrm{x})$:
$\forall x \in \mathrm{x}, P(\mathrm{x} = x) = \sum \limits_y P(\mathrm{x} = x, \mathrm{y} = y).$
对于连续型变量,我们需要用积分替代求和:
$p(x) = \int p(x, y)dy.$
条件概率 (Conditional Probability):在很多情况下,我们感兴趣的是某个事件,在给定其他事件发?时出现的概率。这种概率叫做条件概率。我们将给定$\mathrm{x} = x,\mathrm{y} = y$发?的条件概率记为$P(\mathrm{y}=y | \mathrm{x}=x)$。这个条件概率可以通过下?的公式计算:
$P(\mathrm{y}=y | \mathrm{x}=x) = \frac{P(\mathrm{y}=y, \mathrm{x}=x)}{P(\mathrm{x}=x)} .$
条件概率只在$P(\mathrm{x}=x)>0$时有定义。 我们不能计算给定在永远不会发生的事件上的条件概率。
条件概率的链式法则 (Chain Rule of Conditional Probability):任何多维随机变量的联合概率分布,都可以分解成只有?个变量的条件概率相乘的形式:
$P(\mathrm{x}^{(1)}, \ldots, \mathrm{x}^{(n)}) = P(\mathrm{x}^{(1)}) \Pi_{i=2}^n P(\mathrm{x}^{(i)} \mid \mathrm{x}^{(1)}, \ldots, \mathrm{x}^{(i-1)}) .$
独立性 (Independence):两个随机变量 x 和 y,如果它们的概率分布可以表?成两个因?的乘积形式,并且?个因?只包含 x 另?个因?只包含y,我们就称这两个随机变量是相互独?的:
$\forall x \in \mathrm{x}, y \in \mathrm{y}, p(\mathrm{x} = x, \mathrm{y} = y) = p(\mathrm{x} = x)p(\mathrm{y} = y).$
条件独立性 (Conditional Independence):如果关于$\mathrm{x}$和$\mathrm{y}$的条件概率分布对于$z$的每一个值都可以写成乘积的形式,那么这两个随机变量 $\mathrm{x}$和$\mathrm{y}$在给定随机变量~$z$时是条件独立的:
$\forall x \in \mathrm{x}, y \in \mathrm{y}, z \in \mathrm{z}, p( \mathrm{x}=x, \mathrm{y}=y \mid \mathrm{z}=z) =p(\mathrm{x} = x \mid \mathrm{z} = z) p(\mathrm{y} = y \mid \mathrm{z} = z).$
我们可以采用一种简化形式来表示独立性和条件独立性:$\mathrm{x} \bot \mathrm{y}$表示$\mathrm{x}$和$\mathrm{y}$相互独立,$\mathrm{x} \bot \mathrm{y} \mid \mathrm{z}$表示$\mathrm{x}$和$\mathrm{y}$在给定$\mathrm{z}$时条件独立。
期望(Expectation):函数$f(x)$关于某分布$P(\mathrm{x})$的期望或者期望值是指,当$x$由$P$产生,$f$作用于$x$时,$f(x)$的平均值。 对于离散型随机变量,这可以通过求和得到:
$E_{\mathrm{x}\sim P }[f(x)] = \sum \limits_x P(x)f(x)$
对于连续型随机变量可以通过求积分得到:
$E_{\mathrm{x}\sim P }[f(x)] = \int p(x)f(x)dx.$
另外,期望是线性的:
$E_{\mathrm{x}}[\alpha f(x) + \beta g(x)]= \alpha E_{\mathrm{x}}[f(x)] + \beta E_{\mathrm{x}}[g(x)]$
方差 (Variance):衡量的是当我们对 x 依据它的概率分布进?采样时,随机变量 x 的函数值会呈现多?的差异,描述采样得到的函数值在期望上下的波动程度:
$Var(f(x)) = E [(f(x)- E[f(x)])^2 ].$
将?差开平?即为标准差 (Standard Deviation)。
协方差 (Covariance):?于衡量两组值之间的线性相关程度:
$Cov(f(x), g(y)) = E[ ( f(x)-E[f(x)] )( g(y)-E[g(y)] )].$
注意,独??零协?差要求更强,因为独立还排除了非线性的相关。
伯努利分布 (Bernoulli Distribution) 是单个二值随机变量的分布,是单个二值随机变量的分布。由单个参数$\phi \in [0, 1]$控制,$\phi$给出了随机变量等于1的概率。 它具有如下的一些性质:
$P(\mathrm{x} =1) = \phi$
$P(\mathrm{x} =0) = 1-\phi$
$P(\mathrm{x} = x) = \phi^x (1-\phi)^{1-x}$
表??次试验的结果要么成功要么失败。
范畴分布 (Multinoulli Distribution) 是指在具有 k 个不同值的单个离散型随机变量上的分布:
$p(\mathrm{x}=x)\prod_{i}\o_{i}^{x^{i}}$
例如每次试验的结果就可以记为?个 k 维的向量,只有此次试验的结果对应的维度记为 1,其他记为 0。
实数上最常用的分布就是正态分布,也称为高斯分布:
$N(x; \mu, \sigma^2) = \sqrt{\frac{1}{2\pi \sigma^2}} \exp ( -\frac{1}{2\sigma^2} (x-\mu)^2 ).$
正态分布由两个参数控制,$\mu \in R$和$\sigma \in (0, \infty)$。 参数$\mu$给出了中心峰值的坐标,这也是分布的均值:$E[\mathrm{x}] = \mu$。 分布的标准差用$\sigma$表示,方差用$\sigma^2$表示。
标准高斯函数
在深度学习中,我们经常会需要一个在$x=0$点处取得边界点(sharp point)的分布。 为了实现这一目的,我们可以使用指数分布:
$P(x;\lambda )=\lambda 1_{x\ge 0 } exp(-\lambda x)$
指数分布使用指示函数(indicator function)$\Vone_{x\ge 0}$来使得当$x$取负值时的概率为零。
它允许我们在任意一点$\mu$处设置概率质量的峰值
$\text{Laplace}(x; \mu, \gamma) = \frac{1}{2\gamma} \exp \left( -\frac{|x-\mu|}{\gamma} \right).$
在一些情况下,我们希望概率分布中的所有质量都集中在一个点上。 这可以通过Dirac delta函数 $\delta(x)$定义概率密度函数来实现:
$p(x) = \delta(x-\mu).$
它可以描述成一个在原点处无限高,无限窄的曲线,并且它的积分为 1。也就是说只在原点处取 +∞
,而在其他各处取 0。
$\delta (x)=\left\{\begin{matrix}+\infty,x=0 \\0,x=otherwise\end{matrix}\right.$
而其导数则为:
$\int{^{+\infty}_{-\infty}\delta(x)dx=1}$
图像
$\sigma (x)=\frac{1}{1+exp(-x)} $
logistic sigmoid 函数通常?来产?伯努利分布中的参数 ? ,因为它的范围是(0, 1),处在 ? 的有效取值范围内。sigmoid 函数在变量取绝对值?常 ?的正值或负值时会出现饱和 (Saturate) 现象,意味着函数会变得很平,并且对输?的微?改变会变得不敏感。
$\zeta(x) = \log(1+\exp(x)).$
softplus函数可以用来产生正态分布的$\beta$和$\sigma$参数,因为它的范围是$(0,\infty)$。 当处理包含sigmoid函数的表达式时它也经常出现。 softplus函数名来源于它是另外一个函数的平滑(或”软化”)形式,这个函数是
$x^+ = \max(0, x).$
原文:https://www.cnblogs.com/BlairGrowing/p/14801515.html