取这个名字是因为少量的参数可以控制整个概率分布。如高斯分布,我们只需要控制其期望和方差就可以得到一个特定的概率分布。
频率学家的观点:通过最优化某些准则(如似然函数)来确定参数的具体值。
贝叶斯观点:给定观察数据,先引入参数的先验分布,然后用贝叶斯定理计算对应的后验概率分布。共轭先验(conjugate prior)使后验概率的分布函数形式与先验概率相同,极大的简化了贝叶斯分析。
参数方法是假定分布为某一个具体的函数形式,然后估计其参数。非参数方法则依赖数据集的规模。非参数方法中的模型也有参数,但不是用来控制模型的参数,而是用于控制模型的复杂度。
考虑一个不均匀硬币,抛掷硬币时其正面朝上的概率由参数\(\mu \in [0,1]\)决定,则\(p(x=1|\mu)=\mu\)。
伯努利分布可以表示为:
\[
Bern(x|\mu)=\mu^x(1-\mu)^{1-x}
\]
其期望和方差为:
\[
E(x)=\mu \Var(x)=\mu(1-\mu)
\]
对数似然函数为(\(D\)为数据集):
\[
\ln p(D|\mu)=\sum_{n=1}^N(x_n\ln\mu+(1-x_n)\ln(1-\mu))\\mu_{MLE}=\frac{m}{N}
\]
\(m\)为\(N\)次实验中硬币正面向上的次数。
由伯努利分布延伸,我们考虑抛掷\(N\)次硬币时正面向上的次数\(x\)的分布:
\[
Bin(x|N,\mu)=\dbinom{N}{x}\mu^x(1-\mu)^{N-x}
\]
其中:
\[
\dbinom{N}{x} = \frac{N!}{(N-x)!x!}
\]
表示从完全相同的\(N\)个物体中选出\(x\)个物体的方案数量。
由于多次实验之间相互独立,所以其期望和方差为伯努利分布期望和方差值的和:
\[
E(x)=N\mu \Var(x) =N\mu(1-\mu)
\]
Beta分布是二项式分布的共轭先验分布。
在伯努利分布中给出的\(\mu\)的最大似然解对小规模的数据集会产生严重的过拟合结果。所以我们用贝叶斯观点,引入一个关于\(\mu\)的先验概率分布来解决这个问题。(就是说用下面的公式,通过似然函数与先验分布的乘积得到我们需要的结果,现在的问题就是如何找到合适的先验分布)
接下来介绍的基础知识可以去Gamma分布与共轭先验查找。
对于后验概率分布:
\[
p(\theta|x)=c_xL(\theta,x)p(\theta)
\]
\(c_x\)为\(x\)分布的导数,这里与\(\theta\)无关可以视为常数;\(L(\theta,x)\)为其最大似然函数;\(p(\theta)\)为先验概率分布。可以看出后验概率分布正比于似然函数和先验概率分布的乘积。
再观察伯努利分布的似然函数包含了\(\mu^x(1-\mu)^{1-x}\),所以我们要找到一个有这种形式的先验概率分布,那么得到的后验概率分布形式与先验相同,也叫共轭分布。
这时我们就找到了Beta分布(\(a\)与\(b\)为超参数),可以简单记作\(a+b\)次实验得到了\(a\)次正例:
\[
Beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}
\]
我们用第一项保证了Beta分布的归一化(再无其他作用),即:
\[
\int_0^1Beta(\mu|a,b)\,d\mu=1
\]
Beta分布的期望和方差为:
\[
E(\mu)=\frac{a}{a+b}\Var(\mu)=\frac{ab}{(a+b)^2(a+b+1)}
\]
由此我们可以得到后验概率分布:
\[
p(\mu|x,N-x,a,b) \propto\mu^{x+a-1}(1-\mu)^{N-x+b-1}
\]
为了归一化(使其积分为1),加入因子:
\[
p(\mu|x,N-x,a,b) =\frac{\Gamma(N+a+b)}{\Gamma(x+a)\Gamma(N-x+b)}\mu^{x+a-1}(1-\mu)^{N-x+b-1}
\]
可以看到此时的期望为:\(\frac{x+a}{N+a+b}\),可以理解成在已经做了\(a+b\)次实验得到\(a\)次正面朝上的基础上,又做了\(N\)次实验,得到了\(x\)次正面朝上,这不过这里\(a,b\)不一定为整数。
延伸一下,在实时学习中,可以把现在的后验概率分布当作下一次观测的先验概率,在此基础上求出新的后验概率分布。
在平均情况下,后验的方差小于先验。
原文:https://www.cnblogs.com/LvBaiYang/p/12207642.html