Read Data: 0917 |
Publication: CVPR 2021 |
||
Title: SelfDoc: Self-Supervised Document Representation Learning |
|||
Aim: 由于文档是多模态的,并用于顺序读取,因此我们的框架利用文档中每个语义上有意义的元素的位置、文本和视觉信息,并为每个内容块之间的上下文化建模。 |
Research Question: 1、防止过度上下文化的过度细粒度 2、如何充分利用来自未标记文档的多模式信息 |
||
Method: 我们提出了SelfDoc,一个任务无关的文档图像理解预训练框架。与现有的文档预训练模型不同,我们的模型是粗粒度的,而不是将单个单词作为输入,因此避免了过度上下文化的过度细粒度。除此之外,我们在模型前训练阶段引入了跨模式学习,以充分利用来自未标记文档的多模式信息。对于后续应用,我们提出了一种新的模态-自适应注意机制,通过自适应强调语言和视觉信号来进行多模态特征融合。 |
|||
Results: 我们的框架得益于对文档的自我监督预训练,无需通过特征掩蔽训练策略进行注释。与之前的工作相比,它在训练前阶段使用的文档图像更少,在多个下游任务上取得了卓越的性能 |
Discussion: |
||
Conclusion: 我们提出了一个任务无关的框架,用于文档图像的表示学习和预训练。我们的框架是在语义组件级别(而不是单词)定义的,充分考虑了文档数据的呈现属性,并包括语言、视觉和结构布局信息。我们在序列建议的基础上采用情境化学习,并通过提出的跨模态编码器鼓励跨语言和视觉的跨模态学习。我们使用模态自适应注意强调语言和视觉的特征,进行多模态融合。在训练前的数据少得多的情况下,我们在多个任务上取得了出色的表现。 |
Further:
|
||
Ref: 以语义组件为输入的粗粒度模型,文档中加入图像跨模态学习。 属于共同学习-融合。无代码 |
原文:https://www.cnblogs.com/xmy-0904-lfx/p/15303381.html