BERT模型优化与改进策略

发布时间：2024-12-23 23:33

决策模型12: 激进/保守策略选择 #生活技巧# #领导力技巧# #决策模型#

aibert

骑着蜗牛逛世界已于 2022-06-20 14:13:05 修改

于 2022-06-17 18:35:00 首次发布

对bert的三大改造

《1词嵌入向量参数的因式分解

O(V * H) to O(V * E + E * H) 参数量少了几十倍

《2跨层参数共享

参数共享能显著减少参数。共享可以分为全连接层、注意力层的参数共享；注意力层的参数对效果的减弱影响小一点。

《3段落连续性任务

。正例，使用从一个文档中连续的两个文本段落；负例，使用从一个文档中连续的两个文本段落，但位置调换了

其他改进变化：

《1去掉drpout

《2为加快训练速度，使用LAMB做为优化器

《3使用n-gram(uni-gram,bi-gram, tri-gram）来做遮蔽语言模型

Bert为了加速训练，前90%的steps使用了128个tokens的短句，最后10%才使用了512个词的长句来训练学习位置嵌入；而ALBert只有10%的情况下采用了短于512个tokens的句子进行训练。

网址：BERT模型优化与改进策略 https://www.yuejiaxmz.com/news/view/549046