首页 > 其他 > 详细

Adam优化器与其他优化器比较【详细,清楚】

时间:2021-01-13 14:29:18      阅读:218      评论:0      收藏:0      [点我收藏+]

https://www.jianshu.com/p/aebcaf8af76e

1、sgd

技术分享图片

 

 

2、动量(Momentum)

技术分享图片

 

 

3、adagrad

技术分享图片

大多数的框架实现采用默认学习率α=0.01即可完成比较好的收敛。 

 

4、RMSprop

技术分享图片

 

其中:

  技术分享图片

 

          技术分享图片

γ是遗忘因子(或称为指数衰减率),依据经验,默认设置为0.9。 

 

 

5、adam

技术分享图片

其中:

 

            技术分享图片

 

                技术分享图片

 

m0 初始化为0。

β1 系数为指数衰减率,控制权重分配(动量与当前梯度),通常取接近于1的值。

默认为0.9。

由于m0初始化为0,会导致mt偏向于0,尤其在训练初期阶段。

所以,此处需要对梯度均值mt进行偏差纠正,降低偏差对训练初期的影响。 vt同理。

                    技术分享图片

 

                     技术分享图片

v0初始化为0。

β2 系数为指数衰减率,控制之前的梯度平方的影响情况。

类似于RMSProp算法,对梯度平方进行加权均值。

默认为0.999

 

                        技术分享图片

 

Adam优化器与其他优化器比较【详细,清楚】

原文:https://www.cnblogs.com/zhangbojiangfeng/p/14271189.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!