1、贝叶斯法则
全概率公式:
2、熵:对系统无序性的一种度量标准;
信息熵:在NLP领域用来描述文字的信息量大小(不确定性);
太阳从东方升起:信息熵较低(不确定性低); 明天天气多云:信息熵较高;
自信息用来衡量单一事件发生时所包含信息的多少,下式为一个事件X的自信息的表达式:
上图的意思就是,事件发生的概率越大,自信息越小(应该是)
3、相对熵:如果一个随机变量X上有两个概率分布P(x)和Q(x),那么使用KL距离(散度距离)来衡量这两个分布的不同,这种度量就是相对熵。
4、交叉熵:与KL距离一样,也是用来描述两个分布的差异;当P(x)固定时,求关于Q的交叉熵的最小值等价于求KL距离的最小值。
《机器翻译 统计建模与深度学习方法》 __肖桐 学习第四天 【词法及统计建模 基础】
原文:https://www.cnblogs.com/xiaonezhaya/p/13460290.html