假设 为
的矩阵(其中,
为样本个数(batch size),
为特征维数):
与
的维数为
为
的矩阵,
与
的维数为
为
的矩阵,
与
的维数为
为
的矩阵,
假设输出为 维,则
为大小为
的矩阵,根据MSE或CE准则可以求得
,对于回归问题与分类问题,
的求解方法如下:
损失:
KL距离(相对熵):是Kullback-Leibler Divergence的简称,也叫相对熵(Relative Entropy).它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布 P(x) 对应的每个事件,若用概率分布 Q(x) 编码时,平均每个基本事件(符号)编码长度增加了多少比特。我们用表示KL距离,计算公式如下:
,当两个概率分布完全相同时,即 P(X)=Q(X) ,其相对熵为0.
,为了便于详细说明反向传播算法,假设
为
的向量,
为
的向量:
所以,
即,
即,
对于不同算法 ,梯度更新方式如下:
原文:https://www.cnblogs.com/aabbcc/p/14321276.html