首页 > 其他 > 详细

《统计学习方法》笔记--最大熵

时间:2019-11-04 01:51:27      阅读:117      评论:0      收藏:0      [点我收藏+]

最大熵模型(maximum entropy model)是由最大熵原理(概率模型在满足约束条件下,其他不确定的部分是"等可能"的)推导实现。

比如,有随机变量X有5个取值{A,B,C,D,E},在P(A)+P(B)+P(C)+P(D)+P(E)=1而没有其他限制的条件下,则估计X的各个取值都是等可能的1/5;假设有限制条件如下:P(A)+P(B)=3/10,那么估计X的取值则会认为A、B是等可能的,C、D、E三者又是等可能的,最终我们将会得到这样的估计概率分布:P(A)=P(B)=3/20,P(C)=P(D)=P(E)=7/30。

定义

有一训练数据集技术分享图片技术分享图片技术分享图片为经验分布,用特征函数表示输入x和输出y之间的某一事实。

技术分享图片

特征函数f(x,y)关于经验分布技术分享图片的期望值,技术分享图片

特征函数f(x,y)关于模型P(X|Y)与经验分布技术分享图片的期望,技术分享图片

如果模型能获取训练数据中信息,就假设上述的两个期望相等。

假设满足所有约束条件的模型集合为

技术分享图片

定于在条件概率分布P(X|Y)上的条件熵为

技术分享图片

则模型集合C中条件熵H(P)最大的模型称为最大熵模型。

学习

最大熵模型的学习等价约束最优化问题:

技术分享图片

将约束最优化的问题转换为无约束最优化的对偶问题。

首先,引入拉格朗日乘子技术分享图片,对应的拉格朗日函数技术分享图片

技术分享图片

那么最优化的原始问题为:技术分享图片

技术分享图片是凸函数,故最优化原始问题等价于对偶问题:技术分享图片,那么最大熵模型学习即归结为对偶函数极大化技术分享图片

在这,先求解对偶函数内部的极小化可得:

技术分享图片

将上述结果带入技术分享图片得:技术分享图片

最终,再利用IIS或是牛顿法求解最优参数和对应的最优模型。

改进的迭代尺度算法IIS

输入:特征函数技术分享图片;经验分布技术分享图片和模型技术分享图片

输出:最优参数值技术分享图片;最优模型技术分享图片

  1. 取初始值技术分享图片
  2. 对每一技术分享图片
    1. 技术分享图片是方程

    技术分享图片

  3. 如果不是所有的技术分享图片收敛,则重复步骤(2)。

《统计学习方法》笔记--最大熵

原文:https://www.cnblogs.com/lincz/p/11789855.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!