首页 > 其他 > 详细

02 Softmax

时间:2020-02-12 21:40:16      阅读:89      评论:0      收藏:0      [点我收藏+]

softmax

softmax 是单层神经网络 可以得到离散的输出结果

Softmax operator 可表达为:\(\hat{y}_{1}, \hat{y}_{2}, \hat{y}_{3}=\operatorname{softmax}\left(o_{1}, o_{2}, o_{3}\right)\)

其中,

\[\hat{y}_{1}=\frac{\exp \left(o_{1}\right)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)}, \quad \hat{y}_{2}=\frac{\exp \left(o_{2}\right)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)}, \quad \hat{y}_{3}=\frac{\exp \left(o_{3}\right)}{\sum_{i=1}^{3} \exp \left(o_{i}\right)}\]

这时候,如果\(\hat y_2\)= 0:8,不管\(\hat y_1\)\(\hat y_3\)的值是多少,我们都知道图像类别为\(\hat y_2\)的概率是80%。

softmax回归对样本\(i\)分类的矢量计算表达式为:\(\boldsymbol{o}^{(i)}=\boldsymbol{x}^{(i)} \boldsymbol{W}+\boldsymbol{b}\)
\(\hat{\boldsymbol{y}}^{(i)}=\operatorname{softmax}\left(\boldsymbol{o}^{(i)}\right)\)

交叉熵(cross entropy)损失函数

线性回归的平方损失函数 \(\left\|\hat{y}^{(i)}-y^{(i)}\right\|^{2} / 2\) 过于严格,计算得到的损失较大,可考虑交叉熵损失函数 \(H\left(\boldsymbol{y}^{(i)}, \hat{\boldsymbol{y}}^{(i)}\right)=-\sum_{j=1}^{q} y_{j}^{(i)} \log \hat{y}_{j}^{(i)}\)=\(-\log \hat{y}_{y^{(i)}}^{(i)}\)。 若在\(\boldsymbol{y}^{(i)}\)中只有第\(y^{(i)}\)个元素\(y^{(i)}_{y^{(I)}}\)为1,其余为0, 以上等式成立。

可得样本量为\(n\)的数据集交叉熵损失函数为 \(\ell(\Theta)=\frac{1}{n} \sum_{i=1}^{n} H\left(y^{(i)}, \hat{y}^{(i)}\right)\),若每个样本只有一个标签,则\(\ell(\Theta)=-(1/n)\sum^{n}_{i=1}log \hat y^{(i)}_{y^{(i)}}\), 最小化\(\ell(\Theta)\)等价于最大化\(exp(-n\ell(\Theta))=\prod_{i=1}^{n} \hat{y}_{y^{(i)}}^{(i)}\). 即最小化交叉熵损失函数等价于最.化训练数据集所有标签类别的联合预测概率。

02 Softmax

原文:https://www.cnblogs.com/amber-cui/p/12300689.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!