每一层的残差都由后一层的残差乘以两层之间的权重矩阵,再乘以当前层的激活函数的导数得到。 权重梯度由前面的激活值和后面的残差乘积得到的
参考: 深度学习 — 反向传播(BP)理论推导 - 简书 Backpropagation 算法的推导与直观图解 - 文之 - 博客园
深度学习基础--反向传播推导
原文:https://www.cnblogs.com/lzwhard/p/11211762.html