造成梯度消失的原因
两种情况下梯度消失经常出现,一是在深层网络中,二是采用了不合适的损失函数,比如sigmoid。
梯度爆炸一般出现在深层网络和权值初始化值太大的情况下
总结:从深层网络角度来讲,不同的层学习的速度差异很大,表现为网络中靠近输出的层学习的情况很好,靠近输入的层学习的很慢,有时甚至训练了很久,前几层的权值和刚开始随机初始化的值差不多。因此,梯度消失、爆炸,其根本原因在于反向传播训练法则
梯度消失、爆炸的解决方案
1 方案1-预训练加微调
2 方案2-梯度剪切、正则
3 方案3-relu、leakrelu、elu等激活函数
4 方案4-LSTM
梯度消失&&梯度爆炸
原文:https://www.cnblogs.com/lzc007/p/11747997.html