频率学派与贝叶斯学派（先验分布与后验分布，MLE和MAP）

时间：2019-04-01 23:03:16 阅读：932 评论：0 收藏：0 [点我收藏+]

频率学派（古典学派）和贝叶斯学派是数理统计领域的两大流派。

这两大流派对世界的认知有本质的不同：频率学派认为世界是确定的，有一个本体，这个本体的真值是不变的，我们的目标就是要找到这个真值或真值所在的范围；而贝叶斯学派认为世界是不确定的，人们对世界先有一个预判，而后通过观测数据对这个预判做调整，我们的目标是要找到这个世界的概率分布的最优表达。

本科期间学习的概率论与数理统计更多涉及的是频率学派的经典统计学观点，贝叶斯学派的观点也有接触，但是难以分清楚二者的区别。所以整理这篇博客，梳理关于这两个学派的一些知识。

这篇博客从三个方面来整理关于这两个学派的一些重要知识：

1、频率学派和贝叶斯学派的区别

2、先验分布、后验分布和共轭分布

3、最大似然估计和最大后验概率估计

一、频率学派和贝叶斯学派的区别

除了文章开头那段话以外，还可以从以下几个方面来理解两个学派的区别。

1、从三种信息的角度来理解

首先理解三个概念：总体信息、样本信息和后验信息。

数理统计学的任务是通过样本推断总体。把样本视为随机变量时，它有概率分布，称为总体分布。如果我们已经知道了总体的概率分布，那我们得到的这种信息就叫做总体信息。

另一种信息是样本信息，就是从总体中抽取的样本所提供的信息。我们希望通过对样本的加工、整理，从而对总体的分布或对总体的某些数字特征作出统计推断。

总体信息和样本信息放在一起，也称为抽样信息。

第三种信息是后验信息（prior information），就是在抽样之前，根据经验和历史资料，得到的有关统计推断问题中未知参数的信息。

那么基于总体信息和样本信息进行统计推断的理论和方法称为经典（古典）统计学，它的基本观点是：把样本看成是来自于有一定概率分布的总体，所研究的对象是这个总体而不局限于数据本身。

而基于总体信息、样本信息和后验信息进行统计推断的方法和理论则称为贝叶斯统计学，它与经典统计学的主要区别在于是否利用先验信息。在使用样本上也存在差别，贝叶斯统计学重视已出现的样本，对尚未发生的样本值不予考虑。于是贝叶斯学派非常重视先验信息的收集、挖掘和加工，使之形成先验分布而参与到统计推断中，以提高统计推断的效果。

2、从两个学派的争论来理解

频率学派坚持概率的频率解释，对数理统计学中的概念、结果和方法性能的评价等都必须在大量重复的意义上去理解。频率学派对贝叶斯学派的批评主要集中在以下两点：

（1）主观概率以及先验分布的确定。贝叶斯学派提出了主观概率，把主观概念理解为主体对事件发生的概率的相信程度，即不同的人对同一事件的概率可以得到不同的结果。而频率学派认为一个事件的概率要由大量重复试验下的频率来解释，不应该因人而异，必须具有客观性，而且先验分布是主观随意性的产物，不可以接受。

（2）贝叶斯也要以样本分布为出发点，而样本分布通常都是在频率意义上去解释的。可是贝叶斯学派在否定频率学派的同时，却使用了频率学派这个工具。

而贝叶斯学派对频率学派的批评集中在以下两点：

（1）涉及“频率解释”本身。许多应用问题是一次性的，在严格或大致相同条件下让这一个问题重复出现是不可能的。比如预测特朗普当选的概率，预测水灾发生的概率，都是不可能在相同条件下重复出现的，不可能通过重复抽样得到。因此贝叶斯学派认为只能在现有样本的基础上去处理问题。

（2）事前规定精度和可靠度不合理。频率学派基于概率的频率解释，所导出的方法（点估计、区间估计和假设检验）的精度和可靠度是在事前（抽样前）就定下的，称为“事前精度”和“事前可靠度”。贝叶斯学派认为统计推断的精度和可靠度，应该与实际的样本值有关，应当采用“事后精度”和“事后可靠度”。

3、从对未知参数的认识上来理解

频率学派把未知参数θ看成一个未知的固定量，仅把样本看做随机变量，而贝叶斯学派把未知参数也看做是随机变量。

二、先验分布、后验分布和共轭分布

贝叶斯统计学与经典统计学的不同之处在于，贝叶斯统计学在统计推断时除了利用抽样信息外，还利用参数的先验信息，所以贝叶斯方法的一个主要问题是如何确定先验分布。先验分布的确定有很大的主观性和随意性，当先验分布完全未知或部分未知时，如果人为给定的先验分布与实际情形偏离较大时，贝叶斯解的性质就比较差。首先来了解先验分布、后验分布、共轭分布，这是贝叶斯统计学中才有的概念，然后给出基于共轭分布来计算后验分布的方法。

1、先验分布：

参数空间上的任一概率分布都称为先验分布（prior distribution）。用π(θ)来表示随机变量θ的概率函数（当θ为连续型随机变量时，π(θ)表示θ的密度函数；当θ为离散型随机变量时，π(θ_i)表示概率p(θ=θ_i)，i=1,2,...,n）。

先验分布π(θ)是在抽样样本X之前对参数θ可能取值的认识，在获取样本之后，由于样本X中也包含了θ的信息，故人们对θ的认识发生了变化，于是对θ的取值进行调整，就得到了参数θ的后验分布π(θ|x)。先验分布的两种重要类型是无信息先验分布和共轭先验分布。

2、后验分布：

在获得样本X后，θ的后验分布（posterior distribution）就是在给定X=x条件下θ的条件分布，记为π(θ|x)。求后验分布用的是贝叶斯公式。

（1）连续型

θ为连续型随机变量时，其后验分布的密度函数为：

技术分享图片

其中，h(x, θ)=f(x|θ)π(θ)是X和θ的联合密度，f(x|θ)是样本的概率密度函数。而m(x)：

为X的边缘分布。

（2）离散型

当θ是离散型随机变量时，先验分布可用先验分布列｛π(θ_i)，i=1,2,...,n｝来表示，这时的后验分布是如下离散形式：

技术分享图片

那么后验分布可以看做是人们用总体信息和样本信息（统称为抽样信息）对先验分布作调整的结果，是总体信息、样本信息和先验信息的综合。

3、似然函数和共轭分布

（1）似然函数

对于后验分布计算公式中的f(x|θ)，从不同的角度看有不同的含义：

①概率密度函数：若参数θ已知，而x是未知变量，那么描述的是不同样本点的概率，叫做概率密度函数；

②似然函数：若x是已经确定的，而参数θ是变量，那么描述的是对于不同的参数θ，某一个样本出现的概率，一般写作l(θ|x)，叫做参数θ的似然函数。

从上面已知，后验分布=样本的密度函数×先验分布/边缘分布，也可以看做：后验分布=似然函数×先验分布/边缘分布。

（2）共轭分布

已知后验分布=似然函数×先验分布/边缘分布，那么如果后验分布与先验分布有相同的形式，比如都服从贝塔分布，那么就称似然函数和先验分布是共轭的，互为共轭分布，先验分布是似然函数的共轭先验分布。对照上面的公式，后验分布为π(θ|x)，先验分布为π(θ)，似然函数为f(x|θ)，π(θ|x) = f(x|θ) × π(θ) / m(x)。计算后验分布的概率密度：

技术分享图片

如果计算出来的π(θ|x)和π(θ)有相同的分布类型，那么称f(x|θ)和π(θ)互为共轭分布，π(θ)是f(x|θ)的共轭先验分布。

（3）共轭分布的证明

要证明先验分布为样本概率分布的共轭分布，只要计算后验分布，然后得出后验分布与先验分布形式相同的结论。下面证明泊松分布和伽玛分布是共轭分布。

技术分享图片