Faster R-CNN 论文笔记

时间：2019-06-07 09:10:41 阅读：102 评论：0 收藏：0 [点我收藏+]

　　Fast R-CNN提出后，降低目标检测时间的主要瓶颈就来到了待选区域的计算上，于是诞生了Faster R-CNN。作者提出了一种新的网络结构，即RPN，其作用为通过一系列卷积网络来得到待选区域，因此Faster R-CNN其实可以看作是RPN + Fast R-CNN的组合。另外这里还将RPN中部分卷积层与产生feature maps的卷积层合用。网络结构如下：

　　技术分享图片

　　　　　　　　　　　　图1 Faster R-CNN网络结构

　　以上Faster R-CNN的基本结构，这里将它分为4个部分：

　　1. Conv layers。通过vgg16或者resnet，得到feature maps。

　　2. RPN。将步骤1中的feature maps通过一个卷积层和一个全连接层（实际上为卷积核为1*1的卷积层）得到待选区域4k，和分类值2k，通过计算出roi筛选出部分待选区域（rois)供后续目标检测使用。

　　3. ROI Pooling。输入步骤1中得到的feature maps和RPN中得到的rois，将rois对应feature maps中的区域通过ROI Pooling得到固定尺寸的图形。

　　4. 将步骤3中得到的固定尺寸图形通过全连接层得到预测classification结果和预测bounding box结果，计算loss。

　　RPN的具体结构如下：

　　技术分享图片

　　　　　　　　　　　　图2 RPN的网络结构

　　由图2可知，RPN先对feature map进行卷积核为3*3大小的卷积，得到512维（vgg处理中为512维而不是这里的256）新的特征图，然后再为新特征图的每一个像素点设置k（论文中为9，即为3种scale和3中aspect ration的乘积）个可能区域，所以2k个cls值即为在某特定scale和aspect ratio情况下对应的区域中，图像为目标的概率和其为背景的概率（2*k）；4k个reg值即为在某特定scale和aspect ratio情况下对应区域的中心点坐标x、y和高宽h、w（4*k）。

Faster R-CNN 论文笔记

原文：https://www.cnblogs.com/ylwn/p/10987479.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)