首页 > 其他 > 详细

DCL

时间:2020-01-21 11:26:00      阅读:201      评论:0      收藏:0      [点我收藏+]

Destruction and Construction Learning for Fine-grained Image Recognition

Summary

  • 对细粒度的识别,局部细节往往比全局结构更加重要
  • 对比于两阶段模型和以往注意力机制模型,DCL不需要额外注释信息并且在推理阶段不引入额外计算开销
  • 考虑了整个图像不同区域之间的语义相关性
  • 使用了一个简单的网络操作RCM和两个轻量级网络(对抗学习网络和区域对齐网络)
  • 个人认为整个思路想法类似于拼图,先打乱再迫使分类网络去学习能够拼回去的细节特征

    Research Objective

  • 提出了DCL(破坏与构造学习)框架
  • 对比于先前细粒度识别的两种主流方法,改进它们的主要缺点提出了新的轻量级框架

    Problem Statement

  • 精细识别对象部件(object parts)的精细特征表示在细粒度识别中起到重要作用
  • 现有的细粒度识别方法主要分为两类(如下图):
    • 两阶段模型:首先对判别对象部分进行定位,然后根据判别区域进行分类(需要额外的边界框标记对象或者部件)————额外的标注信息
    • 注意力机制无监督的方式通过注意机制自动定位判别区域,因此不需要额外的注释,然而这种方法需要额外的网络结构,因此在训练和推理阶段都将引入额外的计算开销————额外的计算开销
    • 技术分享图片
  • 提出了破坏与构造学习框架(DCL)
    • 一方面DCL自动识别局部判别性区域,在训练的时候不需要额外的知识
    • 另一方面DCL只在训练阶段采用,因此在推理阶段不会引入计算开销
    • 技术分享图片

Method(s)

  • DCL首先对输入图像进行仔细破坏,是有区别的局部细节移动,然后重构局部区域间的语义相关
  • 破坏:使用RCM(Region Confusion Mechanism)区域混淆机制,混淆全局结构,分割为局部小块,随机打乱
    • 分割为局部小块:细粒度类别通常共享相同的全局结构或形状,但仅在局部细节上不同。丢弃全局结构,保留局部细节,可以迫使网络集中于有区别的局部区域进行识别
    • 随机打乱:对图像中的局部区域进行变换,那么对于细粒度识别来说不重要的不相关区域将被忽略,网络将被迫根据有区别的局部细节对图像进行分类
    • !RCM的副作用:可能引入噪声
    • 使用使用了一种对抗性损失来区分原始图像和破坏图像,从而最小化噪声模式的影响
  • 构造:引入与RCM相反的区域对齐网络(Region Alignment Network)来恢复原始区域的排列,通过这个过程需要理解每个区域的语义对不同局部区域之间的相关关系进行建模,从而恢复区域原始布局
  • 具体由四部分组成:
    • (1)区域混淆机制: 对输入图像的局部区域进行洗牌的模块
    • 分割为NxN个子区域R_i,j(N默认设置为7)
    • q_i,j=i+r(其中r为-k到k的均匀分布生成的随机数,第j行i号元素,k为可调的参数1到N之间)
    • 旧图像(i,j)的子区域被调整到新图中的坐标如下:
    • 技术分享图片
    • 技术分享图片
    • 技术分享图片
    • 打乱全局结构,在可调的大小范围内保证了局部区域的抖动

    • (2)分类网络: 将图像进行细粒度分类的主干分类网络
    • (3) 对抗性学习网络: 利用对抗性损失来区分原始图像和破坏图像
    • 损失函数表示为:
    • 技术分享图片
    • 使用鉴别器判断图片是否被破坏,(0,1)表示图片破坏与否(θ^ [1,m]_cls是1到m层的可学习参数,θ_adv为线性映射,C()表示提取的特征向量)
    • 技术分享图片
    • 鉴别器损失:
    • 技术分享图片
    • (4)区域对齐网络: 在分类网络后追加,恢复局部区域的空间布局
    • 测量图像中不同区域的定位精度,通过端到端训练,诱导网络对其区域中的语义关联进行建模
    • M (I)中的两个通道对应行和列的位置坐标
    • 技术分享图片
    • 区域对比损失:预测坐标与原始坐标的L1距离(区域对比损失帮助图像定位主要对象,寻找子块之间的相关性)
    • 技术分享图片
    • 损失函数:
    • 技术分享图片
    • 技术分享图片

Evaluation

  • 在多个FGVC数据集上进行实验:
    • 将输入的图像大小调整为512 512的固定大小,并随机裁剪为448 448。随机旋转和随机水平翻转用于数据增强
    • 最终测试:在测试时,RCM被禁用,用于对抗损失和区域构建的网络结构被删除。将输入的图像进行中心裁剪,然后将其输入到主干分类网络中进行最终的预测。
    • 对所有实验设置α = β = 1
    • 非刚性物体识别:CUB-200-2011 设置γ= 1不同区域之间的相关性对于加深对物体的理解非常重要
    • 刚性物体识别任务: 斯坦福汽车和FGVC飞机 设置γ= 0.01 物体的部分是有判别性和互补性的
    • 对于像CUB-200-2011这样的非刚性物体识别任务,不同区域之间的相关性对于加深对物体的理解非常重要。对象和部分位置可能发挥重要作用的,突出刚性物体识别的破坏学习(DL)在学习有判别性区域的细节有重要作用
    • 对于FGVC飞机,设置N=2,保留飞机的结构信息,其余设置为7(随着N的增大,性能先增大后减小)
    • 技术分享图片

Conclusion

  • DCL具有轻量级、易于训练、推理阶段灵活等特点,具有较好的实用价值。
  • 对于不同的细粒度识别任务N值的设置需要具体调整,如飞机和汽车的区别

    Notes

DCL

原文:https://www.cnblogs.com/mercuialC/p/12220759.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!