ALbert第一作者解说
一、bert 提升宽度和深度,参数爆炸;
1>、increasing width
保持效率不降的基础上,降低参数量;
1、factorized enbedding parametrization
大矩阵解压成两个小矩阵相乘 ——— 输入变量先降维,后升维,1》自由的把网络变宽;2》
2、cross_layer parameter sharing
层的参数共享,all_shared、shared_attention
和bert参数对比
弊端:1、slower 3x in model
2> increasing depth
removing dropout
有效性:参数共享,
self_supervising
原文:https://www.cnblogs.com/Christbao/p/12337361.html