赞
踩
Robertmodel (robustly Bert Model)其实就是加强版的bertmodel
具体只有以下几点的改变
1:pretraining 得数据从普通bert模型的16g 变成了160g
2.去除掉了nsp,也就是不做next sentence prediction
3.使用的动态mask,普通bert用的是静态mask,
区别就是静态mask,对于一个句子,mask掉部分词,塞进模型,训练完后,就换下一 句,而动态mask会多重复几次,每次都mask掉不同的词
4.training的过程使用更长的句子
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。