Bert whole mask为什么效果比mask字效果更好？

时间：2021-01-04 14:40:08 阅读：33 评论：0 收藏：0 [点我收藏+]

论文What Does BERT Look At? An Analysis of BERT’s Attention 指出bert的多头注意力，不同的头可以学到不同的信息，有的学到词法、有的学到语法、语义。

论文地址：https://arxiv.org/pdf/1908.11365.pdf

技术分享图片

举例如：现在好饿呀，我们去吃饭，好不好？ MASK字的方式: 现在好饿呀，我们去吃[MASK]，好不好？

MASK词的方式：现在好饿呀，我们去[MASK] [MASK]，好不好？可以发现MASK字的话模型很容易根据“吃”推断出MASK位置是“饭”的概率很高。

而MASK词的方式明显将任务的难度扩大，需要学习更多的上下文比如上文中“饿”的信息，来推断出两个MASK位置可能是“吃饭”的可能性比较大。

所以说MASK词的方式使得模型预训练时被迫更加关注上下文信息，学到更多的语义，从而下游任务能够表现更好。

原文：https://www.cnblogs.com/jetHu/p/14228918.html

踩

(0)

评论一句话评论（0）

分享档案

更多>