首页 > 其他 > 详细

【2020春】李宏毅机器学习(Tips for DL)

时间:2020-09-05 14:20:23      阅读:64      评论:0      收藏:0      [点我收藏+]

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

sigmoid会衰减输入的影响(大input,小output),层数过多的话,导致输入对cost的影响几乎为0
技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

ReLU是Maxout的特例,Maxout比ReLU更灵活
技术分享图片

技术分享图片

技术分享图片

如何训练Maxout
技术分享图片

等价这个网络(不同的样本更新不同的参数)
技术分享图片

优化器AdaGrad
技术分享图片

RMSProp
技术分享图片

技术分享图片

local minima(参数越多,可能性比较小,因为要求每个weight都是最低点) / saddle point / 鞍点
技术分享图片

Momentum(动量)
技术分享图片

技术分享图片

vi是所有历史梯度的加权和

技术分享图片

技术分享图片

技术分享图片

前边是如何在train data取得好结果。后边是如何在test data取得好data。

Early Stopping
技术分享图片

技术分享图片

L2 regularization,乘上一个小于1的数,就会导致w越来越接近0,也就是不要离0太远,但是后边还有一项保证不是所有参数都成0. 这就是weight decay。因为每次都乘系数,所以最后都比较接近0,不会有很大的值(和L1的区别)。

在实际应用中,regularization有帮助,到那时可能没有那么重要,不像SVM中那么重要,因为初始化参数一般都是从0周围开始,early stopping也可以防止离0太远。

技术分享图片

L1 也是接近0,但是每次减去的都是固定的。所以有接近0的,也有很大的值,显得比较稀疏。
技术分享图片

Regularization = Weight Decay
技术分享图片

Dropout
技术分享图片

For each min-batch,we resample the dropout neurons。
技术分享图片

测试时候两件事,1: 不要dropout;2:乘以(1-p)即dropout_keep_prob。
技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

一个mini-batch训练一个网络;部分参数是共享的;
技术分享图片
技术分享图片
技术分享图片

【2020春】李宏毅机器学习(Tips for DL)

原文:https://www.cnblogs.com/CheeseZH/p/13617434.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!