当前位置:   article > 正文

Robertamodel

robertamodel

Robertmodel (robustly Bert Model)其实就是加强版的bertmodel
具体只有以下几点的改变

1:pretraining 得数据从普通bert模型的16g 变成了160g

2.去除掉了nsp,也就是不做next sentence prediction

3.使用的动态mask,普通bert用的是静态mask,
区别就是静态mask,对于一个句子,mask掉部分词,塞进模型,训练完后,就换下一 句,而动态mask会多重复几次,每次都mask掉不同的词

4.training的过程使用更长的句子

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/运维做开发/article/detail/835404
推荐阅读
相关标签
  

闽ICP备14008679号