首页 > 其他 > 详细

bert 与 ALbert

时间:2020-02-20 21:25:57      阅读:100      评论:0      收藏:0      [点我收藏+]

ALbert第一作者解说

一、bert 提升宽度和深度,参数爆炸;

1>、increasing width

保持效率不降的基础上,降低参数量;

1、factorized enbedding parametrization

大矩阵解压成两个小矩阵相乘 ——— 输入变量先降维,后升维,1》自由的把网络变宽;2》

2、cross_layer parameter sharing

层的参数共享,all_shared、shared_attention 

和bert参数对比

弊端:1、slower 3x in model

2>  increasing depth

removing dropout

有效性:参数共享,

self_supervising

 

bert 与 ALbert

原文:https://www.cnblogs.com/Christbao/p/12337361.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!