0917 文献略读

时间：2021-09-17 16:22:44 阅读：55 评论：0 收藏：0 [点我收藏+]

技术分享图片

Read Data: 0917

Publication: CVPR 2021

Title: SelfDoc: Self-Supervised Document Representation Learning

Aim:

由于文档是多模态的，并用于顺序读取，因此我们的框架利用文档中每个语义上有意义的元素的位置、文本和视觉信息，并为每个内容块之间的上下文化建模。

Research Question:

1、防止过度上下文化的过度细粒度

2、如何充分利用来自未标记文档的多模式信息

Method:

我们提出了SelfDoc，一个任务无关的文档图像理解预训练框架。与现有的文档预训练模型不同，我们的模型是粗粒度的，而不是将单个单词作为输入，因此避免了过度上下文化的过度细粒度。除此之外，我们在模型前训练阶段引入了跨模式学习，以充分利用来自未标记文档的多模式信息。对于后续应用，我们提出了一种新的模态-自适应注意机制，通过自适应强调语言和视觉信号来进行多模态特征融合。

Results:

我们的框架得益于对文档的自我监督预训练，无需通过特征掩蔽训练策略进行注释。与之前的工作相比，它在训练前阶段使用的文档图像更少，在多个下游任务上取得了卓越的性能

Discussion:

Conclusion:

我们提出了一个任务无关的框架，用于文档图像的表示学习和预训练。我们的框架是在语义组件级别(而不是单词)定义的，充分考虑了文档数据的呈现属性，并包括语言、视觉和结构布局信息。我们在序列建议的基础上采用情境化学习，并通过提出的跨模态编码器鼓励跨语言和视觉的跨模态学习。我们使用模态自适应注意强调语言和视觉的特征，进行多模态融合。在训练前的数据少得多的情况下，我们在多个任务上取得了出色的表现。

Further:

Ref:

以语义组件为输入的粗粒度模型，文档中加入图像跨模态学习。

属于共同学习-融合。无代码

0917 文献略读

原文：https://www.cnblogs.com/xmy-0904-lfx/p/15303381.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)