当前位置:   article > 正文

【详解】NLP之常用预训练模型详解_xlm-roberta

xlm-roberta

NLP中流行的预训练模型

  • BERT
  • GPT
  • GPT-2
  • Transformer-XL
  • XLNet
  • XLM
  • RoBERTa
  • DistilBERT
  • ALBERT
  • T5
  • XLM-RoBERTa

1 BERT及其变体
模型名称隐层数张量维度自注意力头数参数量训练语料
bert-base-uncased1276812110M小写英文文本
bert-large-uncased24102416340M小写英文文本
bert-base-cased1276812110M不区分大小写的英文文本
bert-large-cased24102416340M不区分大小写的英文文本
bert-base-multilingual-uncased1276812110M小写的102种语言文本
bert-large-multilingual-uncased24102416340M小写的102种语言文本
bert-base-chinese1276812110M简体和繁体中文文本
  • bert-base-uncased: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在小写的英文文本上进行训练而得到.
  • bert-large-uncased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共340M参数量, 在小写的英文文本上进行训练而得到.
  • bert-base-cased: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在不区分大小写的英文文本上进行训练而得到.
  • bert-large-cased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共340M参数量, 在不区分大小写的英文文本上进行训练而得到.
  • bert-base-multilingual-uncased: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在小写的102种语言文本上进行训练而得到.
  • bert-large-multilingual-uncased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共340M参数量, 在小写的102种语言文本上进行训练而得到.
  • bert-base-chinese: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在简体和繁体中文文本上进行训练而得到.

2 GPT
模型名称隐层数张量维度自注意力头数参数量训练语料
openai-gpt1276812110M英文语料
  • openai-gpt: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 由OpenAI在英文语料上进行训练而得到.

3 GPT-2及其变体
模型名称隐层数张量维度自注意力头数参数量训练语料
gpt21276812117MGPT-2英文语料
gpt2-xl481600251558MGPT-2英文语料
  • gpt2: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共117M参数量, 在OpenAI GPT-2英文语料上进行训练而得到.
  • gpt2-xl: 编码器具有48个隐层, 输出1600维张量, 25个自注意力头, 共1558M参数量, 在大型的OpenAI GPT-2英文语料上进行训练而得到.

4 Transformer-XL
模型名称隐层数张量维度自注意力头数参数量训练语料
transfo-xl-wt10318102416257Mwikitext-103英文语料
  • transfo-xl-wt103: 编码器具有18个隐层, 输出1024维张量, 16个自注意力头, 共257M参数量, 在wikitext-103英文语料进行训练而得到.

5 XLNet及其变体
模型名称隐层数张量维度自注意力头数参数量训练语料
xlnet-base-cased1276812110M英文语料
xlnet-large-cased24102416240M英文语料
  • xlnet-base-cased: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共110M参数量, 在英文语料上进行训练而得到.
  • xlnet-large-cased: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共240参数量, 在英文语料上进行训练而得到.

6 XLM
模型名称隐层数张量维度自注意力头数参数量训练语料
xlm-mlm-en-204812204816/英文语料

xlm-mlm-en-2048: 编码器具有12个隐层, 输出2048维张量, 16个自注意力头, 在英文文本上进行训练而得到.


7 RoBERTa及其变体
模型名称隐层数张量维度自注意力头数参数量训练语料
roberta-base1276812125M英文文本
roberta-large24102416355M英文文本
  • roberta-base: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共125M参数量, 在英文文本上进行训练而得到.
  • roberta-large: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共355M参数量, 在英文文本上进行训练而得到.

8 DistilBERT及其变体
模型名称隐层数张量维度自注意力头数参数量训练语料
distilbert-base-uncased667681266M/
distilbert-base-multilingual-cased67681266M/
  • distilbert-base-uncased: 基于bert-base-uncased的蒸馏(压缩)模型, 编码器具有6个隐层, 输出768维张量, 12个自注意力头, 共66M参数量.
  • distilbert-base-multilingual-cased: 基于bert-base-multilingual-uncased的蒸馏(压缩)模型, 编码器具有6个隐层, 输出768维张量, 12个自注意力头, 共66M参数量.

9 ALBERT
模型名称隐层数张量维度自注意力头数参数量训练语料
albert-base-v11276812125M英文文本
albert-base-v21276812125M英文文本
  • albert-base-v1: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共125M参数量, 在英文文本上进行训练而得到.
  • albert-base-v2: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共125M参数量, 在英文文本上进行训练而得到, 相比v1使用了更多的数据量, 花费更长的训练时间.

10 T5及其变体
模型名称隐层数张量维度自注意力头数参数量训练语料
t5-small6512860MC4语料
t5-base1276812220MC4语料
t5-large24102416770MC4语料
  • t5-small: 编码器具有6个隐层, 输出512维张量, 8个自注意力头, 共60M参数量, 在C4语料上进行训练而得到.
  • t5-base: 编码器具有12个隐层, 输出768维张量, 12个自注意力头, 共220M参数量, 在C4语料上进行训练而得到.
  • t5-large: 编码器具有24个隐层, 输出1024维张量, 16个自注意力头, 共770M参数量, 在C4语料上进行训练而得到.

11 XLM-RoBERTa及其变体
模型名称隐层数张量维度自注意力头数参数量训练语料
xlm-roberta-base127688125M2.5TB的100种语言文本
xlm-roberta-large24102716355M2.5TB的100种语言文本
  • xlm-roberta-base: 编码器具有12个隐层, 输出768维张量, 8个自注意力头, 共125M参数量, 在2.5TB的100种语言文本上进行训练而得到.
  • xlm-roberta-large: 编码器具有24个隐层, 输出1027维张量, 16个自注意力头, 共355M参数量, 在2.5TB的100种语言文本上进行训练而得到.

预训练模型说明:

  • 所有上述预训练模型及其变体都是以transformer为基础,只是在模型结构如神经元连接方式,编码器隐层数,多头注意力的头数等发生改变,这些改变方式的大部分依据都是由在标准数据集上的表现而定,因此,对于我们使用者而言,不需要从理论上深度探究这些预训练模型的结构设计的优劣,只需要在自己处理的目标数据上,尽量遍历所有可用的模型对比得到最优效果即可.
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/249347
推荐阅读
相关标签
  

闽ICP备14008679号