二元变量（伯努利分布、二项式分布以及Beta分布）

时间：2020-01-17 23:17:21 阅读：127 评论：0 收藏：0 [点我收藏+]

概率分布（一)

参数分布

取这个名字是因为少量的参数可以控制整个概率分布。如高斯分布，我们只需要控制其期望和方差就可以得到一个特定的概率分布。

频率学家的观点：通过最优化某些准则（如似然函数）来确定参数的具体值。

贝叶斯观点：给定观察数据，先引入参数的先验分布，然后用贝叶斯定理计算对应的后验概率分布。共轭先验(conjugate prior)使后验概率的分布函数形式与先验概率相同，极大的简化了贝叶斯分析。

参数方法与非参数方法

参数方法是假定分布为某一个具体的函数形式，然后估计其参数。非参数方法则依赖数据集的规模。非参数方法中的模型也有参数，但不是用来控制模型的参数，而是用于控制模型的复杂度。

二元变量

伯努利分布(Bernoulli distribution)

考虑一个不均匀硬币，抛掷硬币时其正面朝上的概率由参数\(\mu \in [0,1]\)决定，则\(p(x=1|\mu)=\mu\)。

伯努利分布可以表示为：
\[ Bern(x|\mu)=\mu^x(1-\mu)^{1-x} \]
其期望和方差为：
\[ E(x)=\mu \Var(x)=\mu(1-\mu) \]
对数似然函数为（\(D\)为数据集）：
\[ \ln p(D|\mu)=\sum_{n=1}^N(x_n\ln\mu+(1-x_n)\ln(1-\mu))\\mu_{MLE}=\frac{m}{N} \]
\(m\)为\(N\)次实验中硬币正面向上的次数。

二项分布(Binomial distribution)

由伯努利分布延伸，我们考虑抛掷\(N\)次硬币时正面向上的次数\(x\)的分布：
\[ Bin(x|N,\mu)=\dbinom{N}{x}\mu^x(1-\mu)^{N-x} \]
其中：
\[ \dbinom{N}{x} = \frac{N!}{(N-x)!x!} \]
表示从完全相同的\(N\)个物体中选出\(x\)个物体的方案数量。

由于多次实验之间相互独立，所以其期望和方差为伯努利分布期望和方差值的和：
\[ E(x)=N\mu \Var(x) =N\mu(1-\mu) \]

Beta分布

Beta分布是二项式分布的共轭先验分布。

在伯努利分布中给出的\(\mu\)的最大似然解对小规模的数据集会产生严重的过拟合结果。所以我们用贝叶斯观点，引入一个关于\(\mu\)的先验概率分布来解决这个问题。（就是说用下面的公式，通过似然函数与先验分布的乘积得到我们需要的结果，现在的问题就是如何找到合适的先验分布）

接下来介绍的基础知识可以去Gamma分布与共轭先验查找。

对于后验概率分布：
\[ p(\theta|x)=c_xL(\theta,x)p(\theta) \]
\(c_x\)为\(x\)分布的导数，这里与\(\theta\)无关可以视为常数；\(L(\theta,x)\)为其最大似然函数；\(p(\theta)\)为先验概率分布。可以看出后验概率分布正比于似然函数和先验概率分布的乘积。

再观察伯努利分布的似然函数包含了\(\mu^x(1-\mu)^{1-x}\)，所以我们要找到一个有这种形式的先验概率分布，那么得到的后验概率分布形式与先验相同，也叫共轭分布。

这时我们就找到了Beta分布（\(a\)与\(b\)为超参数），可以简单记作\(a+b\)次实验得到了\(a\)次正例：
\[ Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1} \]
我们用第一项保证了Beta分布的归一化（再无其他作用），即：
\[ \int_0^1Beta(\mu|a,b)\,d\mu=1 \]
Beta分布的期望和方差为：
\[ E(\mu)=\frac{a}{a+b}\Var(\mu)=\frac{ab}{(a+b)^2(a+b+1)} \]
由此我们可以得到后验概率分布：
\[ p(\mu|x,N-x,a,b) \propto\mu^{x+a-1}(1-\mu)^{N-x+b-1} \]
为了归一化（使其积分为1），加入因子：
\[ p(\mu|x,N-x,a,b) =\frac{\Gamma(N+a+b)}{\Gamma(x+a)\Gamma(N-x+b)}\mu^{x+a-1}(1-\mu)^{N-x+b-1} \]
可以看到此时的期望为：\(\frac{x+a}{N+a+b}\)，可以理解成在已经做了\(a+b\)次实验得到\(a\)次正面朝上的基础上，又做了\(N\)次实验，得到了\(x\)次正面朝上，这不过这里\(a,b\)不一定为整数。

延伸一下，在实时学习中，可以把现在的后验概率分布当作下一次观测的先验概率，在此基础上求出新的后验概率分布。

在平均情况下，后验的方差小于先验。

二元变量（伯努利分布、二项式分布以及Beta分布）

原文：https://www.cnblogs.com/LvBaiYang/p/12207642.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)