对bert的三大改造
《1词嵌入向量参数的因式分解
O(V * H) to O(V * E + E * H) 参数量少了几十倍
《2跨层参数共享
参数共享能显著减少参数。共享可以分为全连接层、注意力层的参数共享;注意力层的参数对效果的减弱影响小一点。
《3段落连续性任务
。正例,使用从一个文档中连续的两个文本段落;负例,使用从一个文档中连续的两个文本段落,但位置调换了
其他改进变化:
《1去掉drpout
《2为加快训练速度,使用LAMB做为优化器
《3使用n-gram(uni-gram,bi-gram, tri-gram)来做遮蔽语言模型
Bert为了加速训练,前90%的steps使用了128个tokens的短句,最后10%才使用了512个词的长句来训练学习位置嵌入;而ALBert只有10%的情况下采用了短于512个tokens的句子进行训练。