vgg在网络设计上有哪些独特的见解?
使用小的卷积核。两个3x3的卷积核堆叠,其感受野相当于5x5,三个相当于7x7。在保持感受野范围一致的情况下,使用多个小卷积代替一个大卷积,一是降低了计算量,二是引入了多个激活函数增加了非线性表示。
同Alexnet一样从大尺寸的图片中crop出224大小的图片。但具体是随机crop还是遍历crop论文没具体说明。怎么获得大尺寸的图片?一种是直接按短边缩放到固定尺寸S=256, 384。另一种是将S随机缩放到256-512这个范围内,采用不固定尺度的图片,相当于引入一定的尺度扰动。
推理时也是先将图片缩放到Q。但计算最后的得分有两种方法,第一种延续Alexnet多crop取平均的方法。另一种是将FC改造成全卷积网络,最后输出的是一个位置得分图(通道数和类别数一致),再通过空间平均变成单一的得分向量
网络权重初值的选择:
层数加深的网络反向计算梯度时容易不稳定,导致网络难以收敛。因此设置好的初始值对网络的训练比较关键。最稳定的初始值就是采用预先训练好的模型权重。另外可通过梯度截断来控制梯度的恶化,后续Resnet网络的出现极大缓解了深度网络难训练的问题(复杂的梯度变化)
vgg比Alexnet参数更多,为什么没有着重讨论过拟合问题?
vgg整体的网络结构—coding相关
没有数据归一化,但如果实际应用可以加上BN。卷积块是2-2-3-3-3的结构,完全通过kernel=2,s=2的池化来改变特征图的大小。同AlexNet全连接层有两层Dropout层,具体请参考论文原图
![image-20200103211550576](C:\Users\qjbook\AppData\Roaming\Typora\typora-user-images\image-20200103211550576.png)
原文:https://www.cnblogs.com/QJuse/p/12147285.html