首页 > 其他 > 详细

AdaScale: Towards Real-time video object detection using adaptive scaling

时间:2019-04-11 13:01:37      阅读:133      评论:0      收藏:0      [点我收藏+]

motivation:

作者发现对图片进行降采样有时能有助于检测精度的提升。具体来说,图片降采样能带来两方面的提升:

1)减少false positive(fp)的数量,过多地关注图片上不必要的细节会引入false positive。

2)增加true positive(tp)的数量,通过对图片进行缩放将object缩放至目标检测器所能处理的合理的尺寸。

图1表明,在ImageNet VID数据集上用R-FCN检测时,将图片进行下采样之后能得到更好的检测效果。

受此启发,作者提出了AdaScale用于现存的目标检测器上,用于将图片自适应地缩放至一个最佳尺寸,来得到更高的速度和精度。

具体来说,作者使用当前帧来预测下一帧的最佳尺寸。

技术分享图片

 

Adaptive Scaling

图2是AdaScale方法的概况。其中包含fine-tuning目标检测器,使用所得到的检测器来生成最优尺寸的label,用上一步生成的label训练一个scale regressor,以及将AdaScale部署在视频目标检测框架中。

技术分享图片

optical scale

  首先定义一个有限的尺寸集合,本文S={600,480,360,240},这里S指图片最短边的像素数量。并选用目标检测器训练时的损失函数(1)作为度量,以此来衡量最优的scale。

技术分享图片

但直接使用损失函数会有这样一个问题,当预测得到的proposal和groundtruth的IoU较低时,会被分类为background,此时的损失函数中的回归损失为0,直接用该指标衡量不同图像尺寸会有问题,

该评价指标会比较喜欢前景框更少的图片尺寸,因为当前景框少时损失函数的值也会更小。

  因此作者设计了一个新的评价指标,这个评价指标仅关注不同图片尺寸中的相同number的前景框。下面具体地来介绍这个评价指标:

设置\(L_{i,a}^m,\quad m\in S\)为利用公式(1)计算的图片i在尺度m上预测的bbox a的损失,设\(\hat{L_i^m},\quad m\in S\)为在图片i在尺度m下计算出的新的评价指标。

为了得到\(\hat{L_i^m}\), 首先计算预测的前景bbox的数量,\(n_{m,i}\)为图片i在任意尺度m的值,令\(n_{min,i}=min_{m}(n_{m,i})\). 然后得到我们提出的评价指标:

技术分享图片

其中\(A_{m,i}\)是图片i在尺度m是预测得到的前景框集合,且\(|A_{m,i}|=n_{min,i}\).为了得到\(A_{m,i}\),对每一个scale,我们对预测的前景框按\(L_{i,a}^m\)进行排序,然后将第一个\(n_{min,i}\)预测加入集合\(A_{m,i}\。

这一过程在图3进行了可视化,得到图片i的最优尺寸公式:

技术分享图片

技术分享图片

 

AdaScale: Towards Real-time video object detection using adaptive scaling

原文:https://www.cnblogs.com/hf19950918/p/10688839.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!