首页 > 其他 > 详细

S3Ns

时间:2020-01-21 11:56:15      阅读:325      评论:0      收藏:0      [点我收藏+]

Selective Sparse Sampling for Fine-grained Image Recognition

Summary

  • 本文提出了一种捕捉细粒度级别特征同时不会丢失上下文信息的简单有效的框架————S3N
  • 采用了注意力机制
  • 采用两个平行的分支(判别性分支和互补性分支)去重采样图片,结果作为ResNet50的输入,并且以概率分配稀疏注意。同时使用FO(原始图像特征)FD(判别性分支采样得到的图像的特征)FC(互补性分支采样得到的图像特征)。提升强有力证据的同时维持弱的证据,使网络不易受强特征的主导。

    Research Objective

  • 本文提出了一种模仿人类视觉系统来预测一组以图像内容为条件的稀疏注意的动态集合的方法。每个注意力集中在一个信息区域,以估计适当的规模,并在不丢失上下文信息的情况下捕捉详细地视觉证据。
  • 定义了两个平行的采样分支:
    • 判别性(discriminative)分支————抽取判别性的特征
    • 互补性(complementary)分支————抽取互补性的特征

      Problem Statement

  • 细粒度图像识别的挑战:相当大的类内差异下捕捉细微的类间差异
  • 先前细粒度图像识别主要包含两个基本组件:
    • 判别性部件的定位
    • ROI(Region Of Interest)特征提取
  • 上述方法主要缺点
    • 图像级监督下局部边界盒的准确估计仍然是个待解决的问题,往往采用复杂且耗时的方法
    • 定位部件的数量是预定义的超参数不能适应图片内容
    • 死板的裁切(crop)操作忽略了每个局部区域的周围环境,限制了结果的特征表达能力(特别是发生定位错误的时候)
  • 人类视觉机制
    1. 扫视,激活显著区域
    2. 视觉觅食,去选择感兴趣的区域
    3. 视觉凝视在局部区域去做最后的决策
  • 通过对先前细粒度图像识别方法不足的介绍,结合人类视觉系统理解一个场景的三个阶段,本文介绍了一种简单高效的框架选择性稀疏采样(S3N),以捕获各种细粒度的细节

    Method(s)

    S3Ns

  • 图像级监督下训练
  1. 收集类峰值响应(class peak responses),从类峰值映射图中定位局部最大值用以评估感兴趣目标有信息的感受野(包含视觉线索)
    • 将图像X输入到CNN主干中,从顶层卷积层中提取特征图S(D为特征通道数,HxW为特征图空间大小)
    • 技术分享图片
    • 将特征图送入一个全局平均池化层(GAP)然后送入全连接层(FC)获得分类分数
    • 计算类响应图M_c(其中W为全连接层权重):
    • 技术分享图片
    • 窗口大小r(文中设置为3)之内定位局部最大值,峰值定位为(N_c有效峰值的数量):
    • 技术分享图片
    • 类峰值响应通常对应于感兴趣区域内强的视觉线索
  2. 评估每个类峰值响应的大小,从而形成一组稀疏的注意力(sparse attention)
    • sparse attention 通常对应于精细的图像部分。如鸟类的喉部、颈部、冠部...提供了更细微的视觉证据
    • 为保持训练和测试的一致性,学习和推断过程均使用类别得分s去选择候选峰值
    • !注意:top-1 类响应图不总是足够去覆盖判别性部分;top-k相当多 却可能引入噪声
    • 利用交叉熵值H计算类峰值响应图R(C为类别数,δ文中设置为0.2):
    • 技术分享图片
    • 技术分享图片
    • 技术分享图片
    • 技术分享图片
    • 对R使用最小-最大归一化压缩到0-1之间,在R中窗口大小r之内定位所有局部最大值T(N_t为探测到的峰值数量):
    • 技术分享图片
    • 使用0-1之间的均匀分布生成随机数,高响应峰值定位判别性的证据更可能被分配到T_D,低响应峰值定位互补性的证据更可能被分配到T_C
    • 技术分享图片
    • 利用高斯核计算一组稀疏注意力,其中β_1、β_2为可学习的参数,每个稀疏注意控制采样的幅值和半径,受对应的类响应值的动态影响,即以输入图像内容为条件。
    • 技术分享图片
  3. 利用所得的稀疏注意部分,通过非齐次变换对图像进行自适应采样,突出相应区域,从而引导网络学习判别性和互补性特征
    • 两个采样图Q^c 和 Q^d为两个采样分支进行采样
    • 技术分享图片
    • 将输入图像X表示为顶点v的网格,采样过程的目标即探索一个新的网格集合。 较高重要性的区域享受均匀缩放,较低重要性的区域允许在大程度上受到抑制(V为原始图像网格集合,V‘为重采样图像网格集合)即寻找一个映射关系,满足条件(k为高斯距离核,起约束效果避免极端情况的产生):
    • 技术分享图片
    • 技术分享图片
    • 参数β_1、β_2根据重采样图像的分类损失进行更新
    • 特征学习过程采用端到端的方式
    • 选择性采样可以阻止强大的特征主导梯度学习,并且鼓励网络去学习多样化的表征
    • 重采样图片与输入图片尺寸一致
    • F_J为联合特征,F_O为原始图像特征,F_D为判别性分支提取的特征,F_C为互补性分支提取的特征
    • 技术分享图片
    • 上述特征输入给一个全连接层使用softmax给出最后分类决策
    • 整个模型通过分类损失进行优化,分类损失定义为(其中L_cls为交叉熵损失,Y^i为预测的标签向量,y^*为真实的标签向量,I属于{O,D,C}):
    • 技术分享图片

Evaluation

  • 采用每幅图像中采样稀疏注意的命中率来评估模型定位对象信息丰富区域的能力
    • 命中的定义:稀疏注意的像素落在图像真实边界盒内
    • 技术分享图片
    • 实验证明该模型经常命中有效部分
    • 该评估模型的方法可借鉴的地方:以命中率的形式联系弱监督学习与强监督学习方式,表达该模型的性能
  • 对最大/最小稀疏注意数进行计数(稀疏注意的数量是灵活的,对于不同图像有不同的数量,相比于固定的超参数有着更好的效果)
    • 技术分享图片

    • 该模型方法经常对含有有力视觉证据的信息部位进行抽样(如上图,鸟类的翅膀和腿部提供弱的证据)
    • 互补性分支的精度低,表现了从这个分支学习到的视觉证据具有更少的判别性 该分支为了捕捉一些弱的视觉证据(相关,但是更容易被忽视)
    • 技术分享图片

Conclusion

  • 稀疏注意力机制图像内容采样相结合,形成一个完整的最小框架为融合局部、全局特征提供新的方法
  • 该方法可以发现更精细的视觉证据并且不丢失上下文信息
  • 该方法不需要任何额外的外部标注(基于弱监督学习)
  • 作者对于失败案例的原因分析:当目标与背景和其他物种相似时,由于互补性分支习得的特征是无用的,甚至是有害的。

    Notes

  • 注意力机制包含两个部分:
    • 注意力机制需要决定整段输入的哪个部分需要更加关注;
    • 从关键的部分进行特征提取,得到重要的信息。
  • 图像识别领域引入注意力机制就是一个非常关键的技术,让深度学习模型更加关注某个局部的信息。

S3Ns

原文:https://www.cnblogs.com/mercuialC/p/12220750.html

(0)
(1)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!