论文地址:https://arxiv.org/abs/1506.01497
Fast R-CNN提出后,降低目标检测时间的主要瓶颈就来到了待选区域的计算上,于是诞生了Faster R-CNN。作者提出了一种新的网络结构,即RPN,其作用为通过一系列卷积网络来得到待选区域,因此Faster R-CNN其实可以看作是RPN + Fast R-CNN的组合。另外这里还将RPN中部分卷积层与产生feature maps的卷积层合用。网络结构如下:
图1 Faster R-CNN网络结构
以上Faster R-CNN的基本结构,这里将它分为4个部分:
1. Conv layers。通过vgg16或者resnet,得到feature maps。
2. RPN。将步骤1中的feature maps通过一个卷积层和一个全连接层(实际上为卷积核为1*1的卷积层)得到待选区域4k,和分类值2k,通过计算出roi筛选出部分待选区域(rois)供后续目标检测使用。
3. ROI Pooling。输入步骤1中得到的feature maps和RPN中得到的rois,将rois对应feature maps中的区域通过ROI Pooling得到固定尺寸的图形。
4. 将步骤3中得到的固定尺寸图形通过全连接层得到预测classification结果和预测bounding box结果,计算loss。
RPN的具体结构如下:
图2 RPN的网络结构
由图2可知,RPN先对feature map进行卷积核为3*3大小的卷积,得到512维(vgg处理中为512维而不是这里的256)新的特征图,然后再为新特征图的每一个像素点设置k(论文中为9,即为3种scale和3中aspect ration的乘积)个可能区域,所以2k个cls值即为在某特定scale和aspect ratio情况下对应的区域中,图像为目标的概率和其为背景的概率(2*k);4k个reg值即为在某特定scale和aspect ratio情况下对应区域的中心点坐标x、y和高宽h、w(4*k)。
原文:https://www.cnblogs.com/ylwn/p/10987479.html