首页 > 其他 > 详细

线性回归中最小二乘的概率解释

时间:2014-04-02 14:29:43      阅读:590      评论:0      收藏:0      [点我收藏+]

最小二乘法是常见的构造代价函数, 拟合参数的方法,如下:

Cost=(h(x)-y)^2

这里探讨最小二乘的概率依据。

 

最大释然理论

一个简单的例子:

假设一个袋子里有无限个球,白球出现的比例是P,黑球为1-P。

那么我从中取10个球,得到了7个白球,很自然的,我们会估计白球出现的比例P=0.7;

继续,我们取100个球,得到了75个白球,我们会继续估计P=0.75。

也就是,我们通过观察到的事件,反过来推其中的概率分布。

 

现在给定一个分布D,假设其概率密度函数为f(D),其中有参数sita。我们从中采样得到样本x1,x2,…,xn,但是并不知道参数sita。那么我们希望通过这些观测值xi,反过来推导出最有可能的sita。

按照概率密度函数,写出事件(x1,x2,…,xn)出现的联合概率:

bubuko.com,布布扣

其中参数sita未知。

我们可以基于这样一个假设:真实的sita会使得如上的事件(x1,x2,…xn)发生的概率最大。

于是,我们把sita当做未知数,得到一个最优化问题:

Max(P(x1,x2,…,xn))。

最终得到的sita就是我们对于未知参数的估计,也就是最大释然估计。

 

概率假设

在线性回归中,我们假设X,Y满足线性相关:

bubuko.com,布布扣

在上述的最大释然方法中,我们需要事先知道,或者假设样本处于某种分布,只是其中的参数未知。

这里我们也可以假设y属于某个分布,得到其概率密度函数。因为我们已有许多观察值(y1,y2,…,yn),再套用上面最大释然的方法,可以求得其中的未知参数。

一般的,我们假设y是关于x的线性函数,并且加上一个噪声,这个噪声可以是取样或是其他各种原因造成的,写成:

bubuko.com,布布扣

其中,e满足高斯分布:

bubuko.com,布布扣

那么y也就满足高斯分布:

bubuko.com,布布扣

现在概率分布假设写出来了,直接套用最大释然的方法,得到:

bubuko.com,布布扣

最大化如上的最大释然函数,也就是最大化其中的bubuko.com,布布扣,也就是最小二乘项。

 

小结

当我们假设Y满足高斯分布时,使用最小二乘法,也就等于使用最大释然法,其具备合理的概率解释。

 

线性回归中最小二乘的概率解释,布布扣,bubuko.com

线性回归中最小二乘的概率解释

原文:http://blog.csdn.net/ice110956/article/details/22782717

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!