首页 > 其他 > 详细

一阶优化方法比较

时间:2019-07-14 00:53:01      阅读:99      评论:0      收藏:0      [点我收藏+]

不同优化方法本质来都来源于SGDSGD本身存在两个非常大的缺点:

第一个是SGD想要很好的收敛需要在调节学习率上下很大的功夫。

第二个是不同的参数都用了相同的学习率,但是实际上不同参数的学习的难度是不同的,我们会希望哪些难以学习的参数有更大的学习率。

解决方法:

对于第一个缺点,我们引入了一阶动量,即根据前面累积的梯度的值来自发的控制学习率的变化,使算法能更好的收敛,简化算法调节学习率的难度。

对于第二个缺点,我们引入了二阶动量使不同的参数有不同大小的学习率,使算法能更好的处理不同参数学习难易程度的差别。

 

所有的一阶优化方法都可以用如下框架描述:

技术分享图片

 

参考资料·:

https://zhuanlan.zhihu.com/p/32230623

https://blog.csdn.net/leadai/article/details/79178787

 

一阶优化方法比较

原文:https://www.cnblogs.com/xumaomao/p/11182733.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!