首页 > 其他 > 详细

【深度学习】损失函数

时间:2020-03-22 20:33:38      阅读:90      评论:0      收藏:0      [点我收藏+]

https://zhuanlan.zhihu.com/p/44216830

一、处理回归问题:

mean_squared_error(MSE)

mean_absolute_error (MAE)

二、处理分类问题

先 sigmoid 再求交叉熵

先 softmax 再求交叉熵

weighted_cross_entropy_with_logits:带权重的 sigmoid 交叉熵

hinge_loss:铰链损失函数 —— SVM 中使用

三、siamese network

Contrastive Loss,这种损失函数可以有效的处理孪生神经网络中的paired data的关系

 

整理:

优点、缺点、tf公式、公式、

 

mean_squared_error:均方根误差(MSE)

优点是便于梯度下降,误差大时下降快,误差小时下降慢,有利于函数收敛。

缺点是受明显偏离正常范围的离群样本的影响较大

 

absolute_difference:平均绝对误差(MAE) —— 想格外增强对离群样本的健壮性时使用

优点是其克服了 MSE 的缺点,受偏离正常范围的离群样本影响较小。
缺点是收敛速度比 MSE 慢,因为当误差大或小时其都保持同等速度下降,而且在某一点处还不可导,计算机求导比较困难。

 

 

交叉熵:

 

 

技术分享图片

 

 

Sigmoid 函数的输出表征了当前样本标签为 1 的概率:

 

技术分享图片

 

很明显,当前样本标签为 0 的概率就可以表达成:

 

技术分享图片

 

把上面两种情况整合到一起:

 

技术分享图片

 

技术分享图片

 

我们希望 log P(y|x) 越大越好,反过来,只要 -log P(y|x) 越小就行了。令 Loss = -log P(y|x)即可。则得:

 

技术分享图片

 

已经推导出了单个样本的损失函数,是如果是计算 N 个样本的总的损失函数,只要将 N 个 Loss 叠加起来就可以了:

 

技术分享图片

 

当 y = 1 时:

 

技术分享图片

预测输出越接近真实样本标签 1,损失函数 L 越小;预测输出越接近 0,L 越大。

 

技术分享图片

 

当 y = 0 时:

 

技术分享图片

  

技术分享图片

 

 

预测输出越接近真实样本标签 0,损失函数 L 越小;预测函数越接近 1,L 越大。

 

Sigmoid vs Softmax 输出层选择

为什么现在一般深度学习的分类模型最后输出层都用Softmax而不是简单的Sigmoid?

当Sigmoid函数的某个输出接近1或者0的时候,就会产生梯度消失,严重影响优化速度,而Softmax没有这个问题。

 

 

技术分享图片

 

  技术分享图片

 

【深度学习】损失函数

原文:https://www.cnblogs.com/pocahontas/p/12545334.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!