首页 > 其他 > 详细

交叉熵在机器学习中的使用

时间:2019-07-29 12:41:41      阅读:76      评论:0      收藏:0      [点我收藏+]

交叉熵在机器学习中的使用

1、信息量

概率越小,信息量越大,事件$X=x_0$的信息量为:
$$I(x_0)=-log(p(x_0))$$

2、熵

熵表示所有信息量的期望:
$$H(x)=-\sum_{i=1}^n p(x_i)log(p(x_i))$$
其中n代表事件X有n种可能

3、相对熵(KL散度)

$$D_{KL}(p||q)=\sum_{i=1}^np(x_i)log(\frac{p(x_i)}{q(x_i)}$$
物理意义:如果用P来描述目标问题,而不是用Q来描述问题,得到的信息增量

在机器学习中,P往往表示样本的真实分布,q表示模型预测的分布,相对熵越小,表示q分布和p分布越接近

4、交叉熵

相对熵可以变形为:
$$D_{KL}(p||q)=-H(p(x))+[-\sum_{i=1}^np(x_i)log(q(x_i))]$$
等式的前半部分是p的熵,后半部分就是交叉熵:
$$H(p,q)=-\sum_{i=1}^np(x_i)log(q(x_i))$$
在机器学习中,我们需要评估labl和predicts之间的差距,可以使用KL散度,但由于KL散度前半部分不变,故在优化过程中,只需要关注交叉熵就行,所以一般在机器学习中直接用交叉熵作为loss函数,评估模型。

机器学习中交叉熵的应用

1、为什么用交叉熵做loss函数

  • 在线性回归中,常常用MSE作loss函数;但在逻辑分类中却不好用,这是需要用交叉熵

2、交叉熵在单分类中的使用

  • 这里的单类别指:每个样本只能有一个类别
  • 交叉熵在单分类问题上的loss函数:
    $$loss=-\sum_{j=1}^m\sum_{i=1}^ny_{ji}log(\hat{y}_{ji})$$
  • 这里的预测概率是通过softmax计算,概率合为1

3、交叉熵在多分类中使用

  • 这里的多类别指:每个样本可以有多个类别
  • 交叉熵在多分类问题上的loss问题:
    $$loss=\sum_{j=1}^m\sum_{i=1}^n-y_{ji}log(\hat{y}{ji})-(1-y{ji})log(1-\hat{y}_{ji})$$
  • 这里的预测是通过sigmoid计算,每个label都是独立分布的,输出归一化

交叉熵在机器学习中的使用

原文:https://www.cnblogs.com/yzh1024/p/11262900.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!