深度学习优化算法总结

时间：2019-08-26 16:46:15 阅读：97 评论：0 收藏：0 [点我收藏+]

前言

这里讨论的优化问题指的是，给定目标函数f(x)，我们需要找到一组参数x（权重），使得f(x)的值最小。

本文以下内容假设读者已经了解机器学习基本知识，和梯度下降的原理。

SGD

SGD指stochastic gradient descent，即随机梯度下降。是梯度下降的batch版本。

对于训练数据集，我们首先将其分成n个batch，每个batch包含m个样本。我们每次更新都利用一个batch的数据，而非整个训练集。即：

技术分享图片

其中，

这么做的好处在于：

当训练数据太多时，利用整个数据集更新往往时间上不显示。batch的方法可以减少机器的压力，并且可以更快地收敛。
当训练集有很多冗余时（类似的样本出现多次），batch方法收敛更快。以一个极端情况为例，若训练集前一半和后一半梯度相同。那么如果前一半作为一个batch，后一半作为另一个batch，那么在一次遍历训练集时，batch的方法向最优解前进两个step，而整体的方法只前进一个step。

Momentum

SGD方法的一个缺点是，其更新方向完全依赖于当前的batch，因而其更新十分不稳定。解决这一问题的一个简单的做法便是引入momentum。

momentum即动量，它模拟的是物体运动时的惯性，即更新的时候在一定程度上保留之前更新的方向，同时利用当前batch的梯度微调最终的更新方向。这样一来，可以在一定程度上增加稳定性，从而学习地更快，并且还有一定摆脱局部最优的能力：

技术分享图片

其中，

Nesterov Momentum

这是对传统momentum方法的一项改进，由Ilya Sutskever(2012 unpublished)在Nesterov工作的启发下提出的。

　　技术分享图片

首先，按照原来的更新方向更新一步（棕色线），然后在该位置计算梯度值（红色线），然后用这个梯度值修正最终的更新方向（绿色线）。上图中描述了两步的更新示意图，其中蓝色线是标准momentum更新路径。

公式描述为：

技术分享图片

Adagrad

Adagrad其实是对学习率进行了一个约束。即：

技术分享图片

此处，对 $技术分享图片$ 从1到 $技术分享图片$ 进行一个递推形成一个约束项regularizer， $技术分享图片$ , $技术分享图片$ 用来保证分母非0

特点：

前期 $技术分享图片$ 较小的时候， regularizer较大，能够放大梯度
后期 $技术分享图片$ 较大的时候，regularizer较小，能够约束梯度
适合处理稀疏梯度

缺点：

由公式可以看出，仍依赖于人工设置一个全局学习率
$技术分享图片$ 设置过大的话，会使regularizer过于敏感，对梯度的调节太大
中后期，分母上梯度平方的累加将会越来越大，使 $技术分享图片$ ，使得训练提前结束

Adadelta

Adadelta是对Adagrad的扩展，最初方案依然是对学习率进行自适应约束，但是进行了计算上的简化。Adagrad会累加之前所有的梯度平方，而Adadelta只累加固定大小的项，并且也不直接存储这些项，仅仅是近似计算对应的平均值。即：

$技术分享图片$

在此处Adadelta其实还是依赖于全局学习率的，但是作者做了一定处理，经过近似牛顿迭代法（求根点）之后：

$技术分享图片$

$技术分享图片$

其中， $技术分享图片$ 代表求期望。

此时，可以看出Adadelta已经不用依赖于全局学习率了。

特点：

训练初中期，加速效果不错，很快
训练后期，反复在局部最小值附近抖动

RMSprop

RMSprop可以算作Adadelta的一个特例：

当 $技术分享图片$ 时， $技术分享图片$ 就变为了求梯度平方和的平均数。

如果再求根的话，就变成了RMS(均方根)：

$技术分享图片$

此时，这个RMS就可以作为学习率 $技术分享图片$ 的一个约束：

$技术分享图片$

特点：

其实RMSprop依然依赖于全局学习率
RMSprop算是Adagrad的一种发展，和Adadelta的变体，效果趋于二者之间
适合处理非平稳目标- 对于RNN效果很好

Adam

Adam(Adaptive Moment Estimation)本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。公式如下：

$技术分享图片$

其中， $技术分享图片$ ， $技术分享图片$ 分别是对梯度的一阶矩估计和二阶矩估计，u和v为衰减率，u通常为0.9，v通常为0.999,可以看作对期望 $技术分享图片$ ， $技术分享图片$ 的估计； $技术分享图片$ ， $技术分享图片$ 是对 $技术分享图片$ ， $技术分享图片$ 的校正，这样可以近似为对期望的无偏估计。可以看出，直接对梯度的矩估计对内存没有额外的要求，而且可以根据梯度进行动态调整，而 $技术分享图片$ 对学习率形成一个动态约束，而且有明确的范围。