神经网络训练中的梯度消失与梯度爆炸

时间：2019-06-22 23:02:26 阅读：124 评论：0 收藏：0 [点我收藏+]

层数比较多的神经网络模型在训练时也是会出现一些问题的，其中就包括梯度消失问题（gradient vanishing problem）和梯度爆炸问题（gradient exploding problem）。梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。

例如，对于下图所示的含有3个隐藏层的神经网络，梯度消失问题发生时，接近于输出层的hidden layer 3等的权值更新相对正常，但前面的hidden layer 1的权值更新会变得很慢，导致前面的层权值几乎不变，仍接近于初始化的权值，这就导致hidden layer 1相当于只是一个映射层，对所有的输入做了一个同一映射，这是此深层网络的学习就等价于只有后几层的浅层网络的学习了。

而这种问题为何会产生呢？以下图的反向传播为例（假设每一层只有一个神经元且对于每一层 $技术分享图片$ ，其中 $技术分享图片$ 为sigmoid函数）

可以推导出

$技术分享图片$

而sigmoid的导数 $技术分享图片$ 如下图

技术分享图片

可见， $技术分享图片$ 的最大值为 $技术分享图片$ ，而我们初始化的网络权值 $技术分享图片$ 通常都小于1，因此 $技术分享图片$ ，因此对于上面的链式求导，层数越多，求导结果 $技术分享图片$ 越小，因而导致梯度消失的情况出现。这样，梯度爆炸问题的出现原因就显而易见了，即 $技术分享图片$ ，也就是 $技术分享图片$ 比较大的情况。但对于使用sigmoid激活函数来说，这种情况比较少。因为 $技术分享图片$ 的大小也与 $技术分享图片$ 有关（ $技术分享图片$ ），除非该层的输入值 $技术分享图片$ 在一直一个比较小的范围内。