首页 > 其他 > 详细

Adam

时间:2019-03-10 22:05:39      阅读:146      评论:0      收藏:0      [点我收藏+]

Adam 方法

Adam 方法将惯性保持和环境感知这两个优点集于一身。一方面, Adam 记录梯度的一阶矩(first moment),即过往梯度与当前梯度的平均,这体现了惯性保持;另一方面,Adam 还记录梯度的二阶矩(second moment),即过往梯度平方与当前梯度平方的平均,这类似AdaGrad 方法,体现了环境感知能力,为不同参数产生自适应的学习速率。一阶矩和二阶矩采用类似于滑动窗口内求平均的思想进行融合,即当前梯度和近一段时间内梯度的平均值,时间久远的梯度对当前平均值的贡献呈指数衰减。具体来说,一阶矩和二阶矩采用指数衰退平均(exponential decayaverage)技术,计算公式为

 

技术分享图片

 

其中β1,β2 为衰减系数,mt 是一阶矩,vt 是二阶矩。

Adam

原文:https://www.cnblogs.com/callyblog/p/10507417.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!