1|0一、为什么需要SPP首先需要知道为什么会需要SPP。 我们都知道卷积神经网络(CNN)由卷积层和全连接层组成,其中卷积层对于输入数据的大小并没有要求,唯一对数据大小有要求的则是第一个全连接层,因此基本上所有的CNN都要求输入数据固定大小,例如著名的VGG模型则要求输入数据大小是 (224*224) 。 固定输入数据大小有两个问题: 1.很多场景所得到数据并不是固定大小的,例如街景文字基本上其高宽比是不固定的,如下图示红色框出的文字。 ![]() ![]() 2.可能你会说可以对图片进行切割,但是切割的话很可能会丢失到重要信息。 综上,SPP的提出就是为了解决CNN输入图像大小必须固定的问题,从而可以使得输入图像高宽比和大小任意。 2|0二、SPP原理
![]() 上图是原文中给出的示意图,需要从下往上看:
那么将特征映射分成若干等分是做什么用的呢? 我们看SPP的名字就是到了,是做池化操作,一般选择MAX Pooling,即对每一份进行最大池化。 我们看上图,通过SPP层,特征映射被转化成了16X256+4X256+1X256 = 21X256的矩阵,在送入全连接时可以扩展成一维矩阵,即1X10752,所以第一个全连接层的参数就可以设置成10752了,这样也就解决了输入数据大小任意的问题了。 注意上面划分成多少份是可以自己是情况设置的,例如我们也可以设置成3X3等,但一般建议还是按照论文中说的的进行划分。 |
|
这里我使用的是PyTorch深度学习框架,构建了一个SPP层,代码如下: 上述代码参考: sppnet-pytorch 为防止原作者将代码删除,我已经Fork了,也可以通过如下地址访问代码:
|
--> 能否直接输入 hierarchy ?
S: w * h 有 hierarchy
T (和S的交互):是不是也有?
--> concat 有多 powerful?直接增加一个维度又如何呢?
--> 池化参数的影响(16->4->1 是一种,多取几种呢?--> deformable?--> adaptive?--> ImageNet 特征提取,相机和人眼感知的区别?--> 用各个视角的相片拼接人眼感知?
原文:https://www.cnblogs.com/cx2016/p/13698656.html