赞
踩
这是一篇总结性笔记,对NLP中预训练模型BERT之后的预训练模型进行总结,包括它的特点和主要改进。如果笔者有使用过的,也会给出使用的“手感”体会。注:文中的每个术语都给出了中文翻译和原英文表述,方便大家进行中英文阅读和偶尔装逼之用。
接上一篇文章继续写!上一篇文章链接如下:
Chanl Wei:BERT的前世今生(一)zhuanlan.zhihu.com先给出一个列表,BERT之后的模型有哪些,不是很全,只列出我看过论文或用过的:
之后还有关于GPT-n,T5以及很多当前被用于实际项目的中文模型的使用,不过不打算直接加在文章后面了,太长了,如果有需要,后面会再更新的,手打这么多文字还是很累人的。这篇文章的阅读大约需要20-30分钟,如果没时间阅读的话,建议先收藏点赞,然后后面再仔细阅读,因为是笔记类的文章,常读常新。
WWM,Whole Word Mask。这是一个技巧或者思想,在很多文章中都有使用,这里把它列出来,是因为中文预训练模型中引入了该思想,获得了比较好的结果,如ERINE 。
在原本的BERT中,使用了wordpiece分词方法,所以一个单词如:apple,经过tokenizer分词后变为ap + ##p + ##le,而mask预测时,会随机选取其中的某一个或几个进行预测,所以会出现一个完整的单词被部分预测的问题,所以后面出现了WWM预测的思路,也就是每次预测都对整个单词进行预测,如上文中的,同时预测“ap + ##p + ##le” 三个[MASK]. 在中文中则是N-gram预测。
WWM方法进行预测时,每次会对整个单词进行预测。
XLNET刚出来的时候,还是火爆一时的,但很快就被后面的浪花挤上了沙滩。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。