首页 > Web开发 > 详细

【深度学习】论文:AlexNet

时间:2020-04-24 11:35:49      阅读:55      评论:0      收藏:0      [点我收藏+]

有个写的很好的文章:https://zhuanlan.zhihu.com/p/80087776

 

【一】

网络结构很重要,一层都不能少

如果算力提升,效果很显然可以继续提升。

防止过拟合很重要

【二】数据集

train 120w valid 5w test 15w,

报告两个错误率 top1 - top5 

预处理:裁剪成 256 x 256, 每张照片 demean

【三】网络结构

3.1 Relu

速度快很多, 防止过拟合?

3.2 双GPU并行跑: 提升1.7% 1.2% (比较单GPU,一半神经元)

3.3 局部标准化:提升泛化能力

3.4 overlap pooling:

传统pooling 2x2, new pooling 步长2 邻域3, 

【四】防止过拟合

6000w个参数

4.1 数据增强: 反射 平移 、 改变RGB的强度、 

4.2 dropout: 0.5的概率为0, 只在两层全连接。最后用所有的,只是输出乘以0.5

【五】学习细节

sgd 0.9 momentum 0.0005 weight decay,这个decay是施加在momentum上的 

weight decay十分重要!

w为std为0.01的正态分布,b有一些为1, 有一些为0, 为了加速

lr相同0.01, 当不会更好的时候 lr 除以10,一共做了三次

训练了90个循环。

 

 

待填坑:

1、local normalize具体实现

2、模型效果与evaluation

【深度学习】论文:AlexNet

原文:https://www.cnblogs.com/yesuuu/p/12766209.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!