首页 > 系统服务 > 详细

CS281: Advanced Machine Learning 第二节 information theory 信息论

时间:2015-07-31 20:28:04      阅读:308      评论:0      收藏:0      [点我收藏+]

信息论

如果离散随机变量有P(X)分布,那么x所携带的熵(信息量):

技术分享

之所以用log2来作为底,是为了方便衡量该信息可以用多少bit来表示。因为1个bit非0即1. 从上公式可以推导出:当k个状态发生的几率一样时,随机变量X所携带的熵越大。正如下图表示的伯努利分布所携带的熵随着概率变化的结果:

技术分享

KL divergence

KL divergence 全称Kullback-Leibler divergence , 用来衡量两个分布之间的离散程度。公式如下:

技术分享

技术分享

H (p, q)  是cross entropy。

技术分享

KL divergence可以理解为因为咱们使用分布q,而不是用分布p去编码数据,而造成的额外的增加的bit。

mutual information

互信息用来衡量P(x,y)与P(x)P(y)之间的KL divergence,表达式如下,如果他们之间的divergence越大,说明联系就越多。特别的,当divergence为0的时候,P(x)与p(y)恰好独立。p(X,Y) = p(X)p(Y) 。

技术分享

用另一种形式表示:

技术分享


References 

PRML

MLAPP

版权声明:本文为博主原创文章,未经博主允许不得转载。

CS281: Advanced Machine Learning 第二节 information theory 信息论

原文:http://blog.csdn.net/frog_in_a_well/article/details/47173145

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!