AdaScale: Towards Real-time video object detection using adaptive scaling

时间：2019-04-11 13:01:37 阅读：142 评论：0 收藏：0 [点我收藏+]

motivation:

作者发现对图片进行降采样有时能有助于检测精度的提升。具体来说，图片降采样能带来两方面的提升：

1）减少false positive(fp)的数量，过多地关注图片上不必要的细节会引入false positive。

2）增加true positive(tp)的数量，通过对图片进行缩放将object缩放至目标检测器所能处理的合理的尺寸。

图1表明，在ImageNet VID数据集上用R-FCN检测时，将图片进行下采样之后能得到更好的检测效果。

受此启发，作者提出了AdaScale用于现存的目标检测器上，用于将图片自适应地缩放至一个最佳尺寸，来得到更高的速度和精度。

具体来说，作者使用当前帧来预测下一帧的最佳尺寸。

技术分享图片

Adaptive Scaling：

图2是AdaScale方法的概况。其中包含fine-tuning目标检测器，使用所得到的检测器来生成最优尺寸的label，用上一步生成的label训练一个scale regressor，以及将AdaScale部署在视频目标检测框架中。

技术分享图片

optical scale：

　　首先定义一个有限的尺寸集合，本文S={600,480,360,240},这里S指图片最短边的像素数量。并选用目标检测器训练时的损失函数(1)作为度量，以此来衡量最优的scale。

技术分享图片

但直接使用损失函数会有这样一个问题，当预测得到的proposal和groundtruth的IoU较低时，会被分类为background，此时的损失函数中的回归损失为0，直接用该指标衡量不同图像尺寸会有问题，

该评价指标会比较喜欢前景框更少的图片尺寸，因为当前景框少时损失函数的值也会更小。

　　因此作者设计了一个新的评价指标，这个评价指标仅关注不同图片尺寸中的相同number的前景框。下面具体地来介绍这个评价指标：

设置\(L_{i,a}^m,\quad m\in S\)为利用公式(1)计算的图片i在尺度m上预测的bbox a的损失，设\(\hat{L_i^m},\quad m\in S\)为在图片i在尺度m下计算出的新的评价指标。

为了得到\(\hat{L_i^m}\), 首先计算预测的前景bbox的数量，\(n_{m,i}\)为图片i在任意尺度m的值，令\(n_{min,i}=min_{m}(n_{m,i})\). 然后得到我们提出的评价指标：

技术分享图片

其中\(A_{m,i}\)是图片i在尺度m是预测得到的前景框集合，且\(|A_{m,i}|=n_{min,i}\).为了得到\(A_{m,i}\)，对每一个scale，我们对预测的前景框按\(L_{i,a}^m\)进行排序，然后将第一个\(n_{min,i}\)预测加入集合\(A_{m,i}\。

这一过程在图3进行了可视化，得到图片i的最优尺寸公式：

技术分享图片

原文：https://www.cnblogs.com/hf19950918/p/10688839.html

踩

(0)

评论一句话评论（0）

分享档案

更多>