Robertamodel

作者：运维做开发 | 2024-07-16 17:21:13

踩

robertamodel

Robertmodel (robustly Bert Model)其实就是加强版的bertmodel
具体只有以下几点的改变

1:pretraining 得数据从普通bert模型的16g 变成了160g

2.去除掉了nsp，也就是不做next sentence prediction

3.使用的动态mask，普通bert用的是静态mask，
区别就是静态mask，对于一个句子，mask掉部分词，塞进模型，训练完后，就换下一句，而动态mask会多重复几次，每次都mask掉不同的词

4.training的过程使用更长的句子

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/运维做开发/article/detail/835404