CS281: Advanced Machine Learning 第二节 information theory 信息论

时间：2015-07-31 20:28:04 阅读：311 评论：0 收藏：0 [点我收藏+]

信息论

如果离散随机变量有P（X）分布，那么x所携带的熵（信息量）：

技术分享

之所以用log2来作为底，是为了方便衡量该信息可以用多少bit来表示。因为1个bit非0即1. 从上公式可以推导出：当k个状态发生的几率一样时，随机变量X所携带的熵越大。正如下图表示的伯努利分布所携带的熵随着概率变化的结果：

技术分享

KL divergence 全称Kullback-Leibler divergence ，用来衡量两个分布之间的离散程度。公式如下：

技术分享

H (p, q) 是cross entropy。

技术分享

KL divergence可以理解为因为咱们使用分布q，而不是用分布p去编码数据，而造成的额外的增加的bit。

互信息用来衡量P（x，y）与P（x）P（y）之间的KL divergence，表达式如下，如果他们之间的divergence越大，说明联系就越多。特别的，当divergence为0的时候，P（x）与p（y）恰好独立。p(X,Y) = p(X)p(Y) 。

技术分享

用另一种形式表示：

References

PRML

MLAPP

原文：http://blog.csdn.net/frog_in_a_well/article/details/47173145

踩

(0)

评论一句话评论（0）

分享档案

更多>