给定\(m\)样本的集合\(\{ (x^{(1)}, y^{(1)}), \cdots, (x^{(m)}, y^{(m)})\}\)
\[J(W,b) = \left[ \dfrac{1}{m} \sum \limits_{i=1}^m J(W,b; x^{(i)}, y^{(i)}) \right] + \dfrac{\lambda}{2}||W||^2_2 \= \left[ \dfrac{1}{m} \sum \limits_{i=1}^m \dfrac{1}{2}||y^{(i)}-L_{w,b}(x^{(i)})||^2 \right] + \dfrac{\lambda}{2}||W||^2_2 \]
二分类
\[J(W,b)=-\left[ \dfrac{1}{m} \sum \limits_{i=1}^m \{ y^{(i)}\ln o^{(i)} + (1-y^{(i)})\ln (1-o^{(i)}) \} \right] + \dfrac{\lambda}{2}||W||^2_2\]
第一项衡量了预测\(o^{(i)}\)与真实类别\(y^{(i)}\)之间的交叉熵
多分类
\[J(W,b)=-\left[ \dfrac{1}{m} \sum \limits_{i=1}^m \sum \limits_{k=1}^n \{ y_k^{(i)}\ln o_k^{(i)} \} \right] + \dfrac{\lambda}{2}||W||^2_2\]
其中\(o^{(i)}_k\)表示第\(i\)个样本属于类别\(k\)的概率
交叉熵 = 相对熵 + 信息熵,信息熵是固定的,减小交叉熵意味着减小相对熵,使预测概率分布逼近真实概率分布
原文:https://www.cnblogs.com/weilonghu/p/11922758.html