首页 > Web开发 > 详细

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

时间:2014-08-15 17:50:59      阅读:679      评论:0      收藏:0      [点我收藏+]

一、本文的主要思想

              考虑到传统的CNN构架的输入图像的尺寸都是固定的(例如:256*256),这种人工改变输入图像的尺寸破坏了输入图像的尺度和长宽比例。作者认为卷积层的输入的尺寸可以是任意,全连接层的输入是固定不变。针对这个问题,作者提出了spatial pyramid pooling(SPP-net)结构,在目标检测方面,比R-CNN快30-170倍。

            bubuko.com,布布扣

二、spatial pyramid pooling(SPP-net)的优势

        1、针对不同尺寸的输入可以得到相同维度的输出,而siding window pooling 做不到;

        2、SPP使用multi-level spatial bins, 而siding window pooling采用的单一的窗口,multi-level对目标变形非常鲁棒;

        3、由于输入尺寸的可变性,SPP可以提取不同尺度的特征。

三、Deep Networks with Spatial Pyramid Pooling

       特征提取的过程其实很简单,就是将SPP放在卷积层的最后一层,pooling层以前,将相当于用SPP代替最后一层pooling。假设最后一层卷积层有256个maps,每个maps的尺寸为a*a,n*n个bins。那么采用窗口win=ceil(a/n)和步长str=floor(a/n)的max-pooling。最后将所有的特征级联起来作为全连接层的输入。这样就保证了无论输入图像的尺寸,输入全连接层的输入都有同样的大小。示意图如下:

  bubuko.com,布布扣

   

      bubuko.com,布布扣

              bubuko.com,布布扣 

四、实验结果

bubuko.com,布布扣

        从这个结果来看,确实有不少的提升。

五、总结

     本论文的思想主要还是基于SPM的思想,将CNN和SPM进行了结合,值得借鉴。并且提到了再训练模型的时候,采用不同的尺寸输入交替训练,这种思想还是首次提到。


Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition,布布扣,bubuko.com

Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

原文:http://blog.csdn.net/woyaopojie1990/article/details/38582677

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!