首页 > 其他 > 详细

TransVG: End-to-End Visual Grounding with Transformers

时间:2021-04-20 14:14:12      阅读:86      评论:0      收藏:0      [点我收藏+]
TransVG: End-to-End Visual Grounding with Transformers
2021-04-20 10:37:54
 
Code: Not available yet
 
1. Background and Motivation
本文提出了首个基于 Transformer 模型的 Visual Grounding 算法框架,从下图可以看到,主要包含三个模块:language-Transformer,Image-Transformer,以及Vis-Lang-Transformer。作者的实验表明结构化的融合模块并不是必须的,因为简单地进行 Transformer 编码层的堆叠就可以得到较好的效果。因为,attention layer 已经建模了模态内和模态间的对应关系,尽管不用任何特定的融合模块。此外,作者也发现直接回归矩形框位置,比之前任何一种方法,效果都要好。

技术分享图片

 

 

 

2. Approach: 

技术分享图片 

2.1. 

 

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
== 

TransVG: End-to-End Visual Grounding with Transformers

原文:https://www.cnblogs.com/wangxiaocvpr/p/14680131.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!