首页 > 其他 > 详细

TinyBERT简单note

时间:2020-05-20 01:01:08      阅读:57      评论:0      收藏:0      [点我收藏+]

TinyBERT

  提出了一种基于Transformer架构的蒸馏方法(Transformer distillation

  两阶段的框架,

    a.预训练阶段 ( generaldistillation

    b.fine-tuning阶段 (task-specific distillation

  对Embedding,Attention,Prediction都做了知识蒸馏,主要对KQV的矩阵进行降维

技术分享图片

知识蒸馏(KD)

  目标是设计behavior函数f和loss函数L,从而让student网络尽可能好的能够学习到teacher网络的知识

技术分享图片

Transformer distillation:
技术分享图片

从图中我们可以看到M<N,所以我们希望student的层能够对应上teacher的抹一层,即找一个映射n=g(m). TinyBERT中同时考虑了Embedding和prediction这两层的压缩,即0 = g(0), N+1 = g(M+1). 形式上,我们需要最小化下面的目标函数

技术分享图片

Attention loss

技术分享图片

Hidden state loss

技术分享图片

 Embedding loss技术分享图片

Prediction loss

技术分享图片

 综上,我们可以得到以下loss

技术分享图片

 最后作者打榜的结果

技术分享图片

技术分享图片

技术分享图片

 技术分享图片

 

TinyBERT简单note

原文:https://www.cnblogs.com/skykill/p/12920375.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!