当前位置:   article > 正文

bert做文本摘要_BERT之后的模型有哪些?

bart和pegasus

143d03597c4ead6a7d88a247b0e49c16.png

这是一篇总结性笔记,对NLP中预训练模型BERT之后的预训练模型进行总结,包括它的特点和主要改进。如果笔者有使用过的,也会给出使用的“手感”体会。注:文中的每个术语都给出了中文翻译和原英文表述,方便大家进行中英文阅读和偶尔装逼之用。

接上一篇文章继续写!上一篇文章链接如下:

Chanl Wei:BERT的前世今生(一)​zhuanlan.zhihu.com
6c9904b6f3fe5c14cba06f806890aa2e.png

总纲

先给出一个列表,BERT之后的模型有哪些,不是很全,只列出我看过论文或用过的:

  • BERT-wwm
  • XLNET
  • ALBERT
  • RoBERTa
  • ELECTRA
  • BART
  • PEGASUS

之后还有关于GPT-n,T5以及很多当前被用于实际项目的中文模型的使用,不过不打算直接加在文章后面了,太长了,如果有需要,后面会再更新的,手打这么多文字还是很累人的。这篇文章的阅读大约需要20-30分钟,如果没时间阅读的话,建议先收藏点赞,然后后面再仔细阅读,因为是笔记类的文章,常读常新。

BERT-wwm

WWM,Whole Word Mask。这是一个技巧或者思想,在很多文章中都有使用,这里把它列出来,是因为中文预训练模型中引入了该思想,获得了比较好的结果,如ERINE 。

在原本的BERT中,使用了wordpiece分词方法,所以一个单词如:apple,经过tokenizer分词后变为ap + ##p + ##le,而mask预测时,会随机选取其中的某一个或几个进行预测,所以会出现一个完整的单词被部分预测的问题,所以后面出现了WWM预测的思路,也就是每次预测都对整个单词进行预测,如上文中的,同时预测“ap + ##p + ##le” 三个[MASK]. 在中文中则是N-gram预测。

WWM方法进行预测时,每次会对整个单词进行预测。

XLNET

XLNET刚出来的时候,还是火爆一时的,但很快就被后面的浪花挤上了沙滩。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/343966
推荐阅读
相关标签
  

闽ICP备14008679号