决策模型12: 激进/保守策略选择 #生活技巧# #领导力技巧# #决策模型#
aibert

骑着蜗牛逛世界 已于 2022-06-20 14:13:05 修改
于 2022-06-17 18:35:00 首次发布
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
对bert的三大改造
《1词嵌入向量参数的因式分解
O(V * H) to O(V * E + E * H) 参数量少了几十倍
《2跨层参数共享
参数共享能显著减少参数。共享可以分为全连接层、注意力层的参数共享;注意力层的参数对效果的减弱影响小一点。
《3段落连续性任务
。正例,使用从一个文档中连续的两个文本段落;负例,使用从一个文档中连续的两个文本段落,但位置调换了
其他改进变化:
《1去掉drpout
《2为加快训练速度,使用LAMB做为优化器
《3使用n-gram(uni-gram,bi-gram, tri-gram)来做遮蔽语言模型
Bert为了加速训练,前90%的steps使用了128个tokens的短句,最后10%才使用了512个词的长句来训练学习位置嵌入;而ALBert只有10%的情况下采用了短于512个tokens的句子进行训练。
网址:BERT模型优化与改进策略 https://www.yuejiaxmz.com/news/view/549046
相关内容
深度学习模型的24种优化策略决策支持系统的优化模型与算法一文搞懂策略模式(优化策略模式完全消除if else)重学 Java 设计模式:实战策略模式「模拟多种营销类型优惠券,折扣金额计算策略场景」如何持续优化FreeSWITCH大模型智能客服的性能?SWOT模型自我提升策略行为型设计模式之策略模式(Strategy)【gateway 进阶】5、性能优化和缓存策略智能家电节能优化策略学霸带你优化学习方改进学习策略
随便看看