轻量化模型之MobileNet

时间：2019-12-12 17:27:28 阅读：284 评论：0 收藏：0 [点我收藏+]

自 2012 年 AlexNet 以来，卷积神经网络在图像分类、目标检测、语义分割等领域获得广泛应用。随着性能要求越来越高，AlexNet 已经无法满足大家的需求，于是乎各路大牛纷纷提出性能更优越的 CNN 网络，如 VGG、GoogLeNet、ResNet、DenseNet 等。由于神经网络的性质，为了获得更好的性能，网络层数不断增加，从 7 层 AlexNet 到 16 层 VGG，再从 16 层 VGG 到 GoogLeNet 的 22 层，再到 152 层 ResNet，更有上千层的 ResNet 和 DenseNet。虽然网络性能得到了提高，但随之而来的就是效率问题。

效率问题主要是模型的存储问题和模型进行预测的速度问题。

1、存储问题。数百层网络有着大量的权值参数，保存大量权值参数对设备的内存要求很高；

2、速度问题。在实际应用中，往往是毫秒级别，为了达到实际应用标准，要么提高处理器性能（很难），要么就减少计算量。

只有解决 CNN 效率问题，才能让 CNN 走出实验室，更广泛的应用于移动端。

对于效率问题，通常的方法是进行模型压缩（Model Compression），即在已经训练好的模型上进行压缩，使得网络携带更少的网络参数，从而解决内存问题，同时可以解决速度问题。

相比于在已经训练好的模型上进行处理，轻量化模型模型设计则是另辟蹊径。轻量化模型设计主要思想在于设计更高效的「网络计算方式」（主要针对主干网卷积），从而使网络参数减少的同时，不损失网络性能。

MobileNetV1

谷歌在2017年提出专注于移动端或者嵌入式设备中的轻量级CNN网络：MobileNet。最大的创新点是深度可分离卷积。

传统卷积分成两步，每个卷积核与每张特征图进行按位相成然后进行相加，此时，计算量为

技术分享图片

通过深度可分离卷积，计算量将会下降，当时，深度可分离卷积比传统卷积少8到9倍的计算量。深度可分离卷积虽然很好的减少计算量，但同时也会损失一定的准确率。

技术分享图片

最后给出v1的整个模型结构，该网络有28层。可以看出，该网络基本去除了pool层，使用stride来进行降采样。

技术分享图片

depthwise后接BN层和RELU6，pointwise后也接BN层和RELU6，如下图所示（图中应该是RELU6）。左图是传统卷积，右图是深度可分离卷积。更多的ReLU6，增加了模型的非线性变化，增强了模型的泛化能力。

技术分享图片

v1中使用了RELU6作为激活函数，这个激活函数在float16/int8的嵌入式设备中效果很好，能较好地保持网络的鲁棒性。

技术分享图片

MobileNet给出了2个超参，宽度乘子α和分辨率乘子β，通过这两个超参，可以进一步缩减模型，文章中也给出了具体的试验结果。此时，我们反过来看，扩大宽度和分辨率，都能提高网络的准确率，但如果单一提升一个的话，准确率很快就会达到饱和，这就是2019年谷歌提出efficientnet的原因之一，动态提高深度、宽度、分辨率来提高网络的准确率。

MobileNetV2

2018年谷歌又一新作，在V1的基础上，引入了Inverted Residuals和Linear Bottlenecks。

在使用V1的时候，发现depthwise部分的卷积核容易费掉，即卷积核大部分为零。作者认为这是ReLU引起的。

简单来说，就是当低维信息映射到高维，经过ReLU后再映射回低维时，若映射到的维度相对较高，则信息变换回去的损失较小；若映射到的维度相对较低，则信息变换回去后算是很大，如下图所示。因此，认为对低维度做ReLU运算，很容易造成信息的丢失。而在高维度进行ReLU运算的话，信息的丢失则会很少。另外一种解释是，高维信息变换回低维信息时，相当于做了一次特征压缩，会损失一部分信息，而再进过relu后，损失的部分就更加大了。作者为了这个问题，就将ReLU替换成线性激活函数。

技术分享图片

Inverted Residuals

这个可以翻译成“倒残差模块”。什么意思呢？我们来对比一下残差模块和倒残差模块的区别。

残差模块：输入首先经过1*1的卷积进行压缩，然后使用3*3的卷积进行特征提取，最后在用1*1的卷积把通道数变换回去。整个过程是“压缩-卷积-扩张”。这样做的目的是减少3*3模块的计算量，提高残差模块的计算效率。
倒残差模块：输入首先经过1*1的卷积进行通道扩张，然后使用3*3的depthwise卷积，最后使用1*1的pointwise卷积将通道数压缩回去。整个过程是“扩张-卷积-压缩”。为什么这么做呢？因为depthwise卷积不能改变通道数，因此特征提取受限于输入的通道数，所以将通道数先提升上去。文中的扩展因子为6。

技术分享图片

Linear Bottleneck

这个模块是为了解决一开始提出的那个低维-高维-低维的问题，即将最后一层的ReLU替换成线性激活函数，而其他层的激活函数依然是ReLU6。

技术分享图片

将两个模块进行结合，如下图所示。当stride=1时，输入首先经过1*1的卷积进行通道数的扩张，此时激活函数为ReLU6；然后经过3*3的depthwise卷积，激活函数是ReLU6；接着经过1*1的pointwise卷积，将通道数压缩回去，激活函数是linear；最后使用shortcut，将两者进行相加。而当stride=2时，由于input和output的特征图的尺寸不一致，所以就没有shortcut了。

技术分享图片

最后，给出v2的网络结构。其中，t为扩张系数，c为输出通道数，n为该层重复的次数，s为不长。可以看出，v2的网络比v1网络深了很多，v2有54层。

技术分享图片

当然，还不能少了性能对比图。v2的准确率比v1高出不少，延时也低了很多，是一款不错的轻量化网络。

技术分享图片

MoblieNetV3

MobileNet V3发表于2019年，该v3版本结合了v1的深度可分离卷积、v2的Inverted Residuals和Linear Bottleneck、SE模块，利用NAS（神经结构搜索）来搜索网络的配置和参数。

v3在v2的版本上有以下的改进：

作者发现，计算资源耗费最多的层是网络的输入和输出层，因此作者对这两部分进行了改进。如下图所示，上面是v2的最后输出几层，下面是v3的最后输出的几层。可以看出，v3版本将平均池化层提前了。在使用1*1卷积进行扩张后，就紧接池化层-激活函数，最后使用1*1的卷积进行输出。通过这一改变，能减少10ms的延迟，提高了15%的运算速度，且几乎没有任何精度损失。其次，对于v2的输入层，通过3*3卷积将输入扩张成32维。作者发现使用ReLU或者switch激活函数，能将通道数缩减到16维，且准确率保持不变。这又能节省3ms的延时。

技术分享图片