首页 > 其他 > 详细

【2020春】李宏毅机器学习(New Optimizers for Deep Learning)

时间:2020-08-22 18:30:23      阅读:55      评论:0      收藏:0      [点我收藏+]

https://www.bilibili.com/video/av94519857?p=8
https://www.bilibili.com/video/av94519857?p=9

-----总结-----
技术分享图片

技术分享图片

技术分享图片

技术分享图片


技术分享图片

技术分享图片

技术分享图片

一次能够拿到所有训练数据,就是offline learning。
技术分享图片

每次梯度反方向
技术分享图片

Momentum(累加历史所有梯度,即使当前梯度为0,也会因为历史梯度的影响,继续移动,防止卡在鞍点)
技术分享图片

技术分享图片

技术分享图片

Adagrad(随着时间累计,分母可能会无止境变大,导致leanring rate*gradient接近0,也就相当于卡住。EMA问题)

技术分享图片

RMSProp(通过增加一个系数alpha,解决EMA问题。但是梯度为0的情况还是可能进入鞍点。)
技术分享图片

Adam(结合Momentum和RMSProp,既能避免EMA问题,又能避免梯度为0进入鞍点。)

技术分享图片

Ada系列集中在2014年左右被提出的。
技术分享图片

实际应用

技术分享图片

技术分享图片

技术分享图片

技术分享图片

Adam 和 SGDM

训练acc
技术分享图片

验证acc
技术分享图片

一篇论文
技术分享图片

技术分享图片

结论:Flat Minimum和Sharp Minimum

  • adam:训练更快,但是与测试gap大,不稳定;
  • sgdm:更稳定,与测试gap小;
    技术分享图片

技术分享图片

如何提高Adam?
技术分享图片

经过1000步很小的gradients之后,遇到一个较大的gradient,但是受movement影响,只能移动很小的一步。也就是大量Non-informative梯度抑制了informative梯度。

从公式可以看出,一次更新的最大移动距离的上届就是(sqrt(1/(1-beta_2)))*eta
技术分享图片

这篇文章提出记住历史最大的v_t,就可以避免non-informative gradients的影响了。
技术分享图片

另一篇文章
技术分享图片

技术分享图片

如何提高SGDM?

技术分享图片

lr太大或太小,都不如适中的时候好。LR Range Test
技术分享图片

技术分享图片

技术分享图片

技术分享图片

Adam需要warm up,否则前期的梯度会很乱。
技术分享图片

warmup,前期走小步一点。
技术分享图片

Variance大,则走小步;Variance小,则走大步。
技术分享图片

技术分享图片

通用的方法
技术分享图片

技术分享图片

再看Momentum
技术分享图片

技术分享图片

技术分享图片

Adam in the future:Nadam

技术分享图片

L2 regularization or weight decay?【SGDWM或AdamW(实际应用比较多)】

技术分享图片

技术分享图片

更多探索,效果更好
技术分享图片

耐心教导模型
技术分享图片

技术分享图片

【2020春】李宏毅机器学习(New Optimizers for Deep Learning)

原文:https://www.cnblogs.com/CheeseZH/p/13546274.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!