首页 > 其他 > 详细

机器学习——极大似然估计

时间:2021-06-13 23:48:52      阅读:39      评论:0      收藏:0      [点我收藏+]

1 前言

  • 极大似然估计方法(Maximum Likelihood Estimate,MLE)也称为最大概似估计或最大似然估计,是求估计的另一种方法,最大概似是1821年首先由德国数学家高斯(C. F. Gauss)提出,但是这个方法通常被归功于英国的统计学家。罗纳德·费希尔(R. A. Fisher)。
  • 极大似然估计,通俗来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!
  • 换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。假设我们要统计全国人口的身高,首先假设这个身高服从服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高,然后通过最大似然估计来获取上述假设中的正态分布的均值与方差。
  • 最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。

2 求解步骤

  求极大似然函数估计值的一般步骤:

  1. 写出似然函数;
  2. 对似然函数取对数,并整理;
  3. 求导数 ;
  4. 解似然方程 。

  利用高等数学中求多元函数的极值的方法,有以下极大似然估计法的具体做法:
  (1)根据总体的分布,建立似然函数$L(x_1,x_2,...,x_n;\theta_1,\theta_2 ,...,\theta_n)$ ;
  (2) 当 $L$ 关于 可微时,(由微积分求极值的原理)可由方程组
    $\frac{\partial L}{\partial \theta_i } =0,i=1,2,...,k$
  定出 $\widehat{\theta } _i(i=1,2,...,k)$,称以上方程组为似然方程。
  因为 $L$ 与有相同的极大值点,所以 $\widehat{\theta } _i(i=1,2,...,k)$ 也可以由方程组
    $\frac{\partial lnL}{\partial \theta_i } =0,i=1,2,...,k$
  定出 $\widehat{\theta } _i(i=1,2,...,k)$,称以上方程组为对数似然方程;$\widehat{\theta } _i(i=1,2,...,k)$就是所求参数$\theta _i(i=1,2,...,k)$的极大似然估计量。
  当总体是离散型的,将上面的概率密度函数 $f(x,\theta _1,\theta _3,...,\theta _k)$,换成它的分布律$P(X=x,\theta _1,\theta _3,...,\theta _k)$

3 极大似然估计

  • 1 若总体 $X$ 为离散型,其概率分布列为

    $P(X=x)=p(x;\theta )$

     其中 $\theta$ 为为未知参数。

  • 设 $(X_1,X_2,...,X_n)$ 是取自总体的样本容量为 $n$ 的样本,则 $(X_1,X_2,...,X_n)$ 的联合分布律为$\prod \limits _{i=1}^{n}p(x_i,\theta ) $。又设$(X_1,X_2,...,X_n)$的一组观测值为$(x_1,x_2,...,x_n)$,易知样本 $X_1,X_2,...,X_n$ 取到观测值$x_1,x_2,...,x_n$的概率为

    $L(\theta )=L(x_1,x_2,...,x_n;\theta )=\prod \limits _{i=1}^{n}p(x_i;\theta ) $
    这一概率随 $\theta$ 的取值而变化,它是 $\theta$ 的函数,称$L(\theta )$为样本的似然函数。

  • 2 若总体 $X$ 为连续型,其概率密度函数为$f(x;\theta )$,其中 为未知参数。设$(X_1,X_2,...,X_n)$是取自总体的样本容量为n的简单样本,则$(X_1,X_2,...,X_n)$的联合概率密度函数为$\prod \limits _{i=1}^{n}f(x_i;\theta )$。又设$(X_1,X_2,...,X_n)$ 的一组观测值为$(x_1,x_2,...,x_n)$ ,则随机点$(X_1,X_2,...,X_n)$落在点 $(x_1,x_2,...,x_n)$ 的邻边(边长分别为dx_1,dx_2,...,dx_n的n维立方体)内的概率近似地为$\prod \limits _{i=1}^{n}f(x_i;\theta )dx_i$。

   考虑函数
     $L(\theta )=L(x_1,x_2,...,x_n;\theta )=\prod \limits _{i=1}^{n}f(x_i;\theta )$
   同样, $L(\theta $ 称为样本的似然函数。


   极大似然估计法原理就是固定样本观测值 $(x_1,x_2,...,x_n)$ ,挑选参数 $\theta$ 使

     $L(x_1,x_2,...,x_n; \widehat{\theta} )=max \ L(x_1,x_2,...,x_n;\theta)$

  • 这样得到的 $ \widehat{\theta} $ 与样本值有关,$\widehat{\theta } (x_1,x_2,...,x_n)$ 称为参数 $\theta$ 的极大似然估计值,其相应的统计量$\widehat{\theta }(X_1,X_2,...,X_n)$称为 $\theta$ 的极大似然估计量。极大似然估计简记为MLE或$\widehat{\theta }$ 。
  • 问题是如何把参数$\theta$的极大似然估计$\widehat{\theta }$求出。更多场合是利用$lnL(\theta)$是$ln(\theta)$的增函数,故$lnL(\theta)$与$L(\theta)$在同一点处达到最大值,于是对似然函数$L(\theta)$取对数,利用微分学知识转化为求解对数似然方程

    $\frac{\partial L(\theta )}{\partial \theta_i} =0,\ j=1,2...,k$

  • 解此方程并对解做进一步的判断。但由最值原理,如果最值存在,此方程组求得的驻点即为所求的最值点,就可以很到参数的极大似然估计。极大似然估计法一般属于这种情况,所以可以直接按上述步骤求极大似然估计。

 

机器学习——极大似然估计

原文:https://www.cnblogs.com/BlairGrowing/p/14877125.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!