首页 > 其他 > 详细

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

时间:2021-07-22 17:02:08      阅读:22      评论:0      收藏:0      [点我收藏+]

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

2021-07-22 08:54:20

 

Paperhttps://arxiv.org/pdf/2104.11178.pdf 

 

1. Background and Motivation

本文尝试用一个共享的 backbone 来学习三个模态的特征表达,并且是用 transformer 的框架,自监督的方式去学习。作者认为监督学习的自监督有如下两个问题:

  1). 无法充分利用海量无标签数据;

  2). CV 的众多任务中,获得有标签数据,是非常困难的。

因此,本文尝试从无监督学习的角度,提出了 VATT 模型。

技术分享图片 

 

如上图所示,更残暴的是,作者直接让三个模态共享同一个骨干网络。实验证明,与模态无关的骨干网络可以取得与不同模态的骨干网络,相似的结果。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

==

 

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

原文:https://www.cnblogs.com/wangxiaocvpr/p/15043367.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!