当前位置:   article > 正文

XLM-R---XLM的升级版本

xlm-r

这几天研究跨语言无监督模型,研究XLM-R的时候。顺便把XLM看了。因为这两篇文章时紧耦合的。XLM-R依赖XLM的思想。XLM-R来源于Facebook的11月份新文章《Unsupervised Cross-lingual Representation Learning at Scale》是EMNLP2019的最佳论文。
大牛的评价:
在这里插入图片描述
在100种语言上使用超过2.5T的数据进行训练。相对于XLM,XLM-R使用了过滤后的CommonCrawl数据集。XLM-R在XNLI、MLQA、多语言NER这些多语言任务上均取得了最好的实验效果。

在低资源语言取得了更好的提升效果,像Swahili语上取得了11.8%的提升,在更低资源的Urdu语上取得了9.2%提升。

通过文中各种实验,作者得出首次实现了在不损失各个语言性能的情况下,多语言语言模型表现达到最优。可以达到

cross-lingual setting in which a model is learned in one language and applied in other languages

本文首先会分析在高资源语言和低资源语言上的抽样比例和字典大小对结果的影响。
发现对于固定大小的模型,随着语言种类的增多,跨语言性能在低资源语言上会越来越好,但是到了某个点后,单语和跨语言基准测试的总体性能下降。具体实验在后面都会展示。

这个XLM-R就是XLM-RoBERTa的缩写。它继承了XLM的训练方法,但是借鉴了RoBERTa的思想。本文聚焦无监督跨语言模型,所以使用MLM的方法。基本单元使用transformer模块,从每种语言取样,然后训练预测Masked位置。和XLM不同的是去掉了语言编码层:
在这里插入图片描述
生成字典的时候,直接使用SentencePiece工具。在采样的时候采用和XLM类似的采样方法,只不过这个 α = 0.3 \alpha=0.3 α=0.3,字典大小设置为250K,模型大小为:
X L M − R B a s e ( L = 12 , H = 768 , A = 12 ,   270 M ) XLM-R_{Base}(L=12,H=768,A=12,\ 270M) XLMRBase(L=12,H=768,A=12, 270M)
X L M − R ( L = 24 , H = 1024 , A = 16 ,   550 M ) XLM-R(L = 24, H = 1024, A = 16,\ 550M) XLMR(L=24,H=1024,A=16, 550M)
全部的消融实验,我们统一使用 B E R T B a s e BERT_{Base} BERTBase,字典大小为150K。
1、扩展100种语言。
与XLM种100种语言不同,扩展了一些语言,并把一些语言用常用的语言替换,比如海地语使用罗马化的海地语,中文使用简体中文。而且在消融实验中,会经常使用七种不同的语言:英语、法语、德语、俄语、中文、斯瓦希里语、乌尔多语。这样的组合就可以将高资源与低资源语言都包含进来,可以比较正确的评价模型。
训练中会按照语言数量划分多个训练集来观测语言种类对模型的影响。这些训练集分别时:15、 30、 60和 全部的100语言。

2、扩充训练数据
CommonCrawl数据集包含了100种语言。在CommonCrawl中对于英语这些高资源语料我们一般存储一次,对于其他语言存储12次。这对于缅甸语和斯瓦希里语这样的低资源语言来说,增加了数据集的大小。
而且在实验中发现,几百MB的文本数据是BERT模型学习的最小数据。

实验:
1、XNLI
三种实验划分和XLM类似。实验结果如下:
xnli

2、NER任务
这个是相对于XLM引入的一个新的任务。
NER

每个模型进行三组实验:
each:分别在每种语言训练模型
en:仅仅在英文上训练模型
all:在所有语言上训练模型

3、MLQA
多语言问答任务。主要是英语、西班牙语、德语、阿拉伯语、海地语、越南语、中文。模型在英语语料上训练,然后在这七种语言上测试。结果如下:
MLQA

4、GLUE基准测试
最后的实验是测试了XLM-R的整体性能。这主要是做消融实验:
GLUE
可以看到XLM-R和单语料的预训练模型性能不相上下。结果好于BERT接近XLNet。

5、单语义模型和多语义模型对比
这仍然是一个消融实验
versus
我们使用XNLI数据进行比较,发现XLM-R仍然可以获得最好的效果。

接下来看看训练中一些参数的影响。
影响1
上图中可以看出,当固定模型容量,随着训练语言从7增加到15。XNLI的性能是逐渐变好的。尤其在低资源语料上,这也从一个方面说明,加入和低资源语料类似的语料可以提高XNLI在低资源语料上性能。过了这一点之后在所有语言的表现性能逐渐下降。

接下来验证模型容量会带来哪些提升。
我们选用wiki数据,分别选7、30、100种语言。模型容量的hidden size分别为768,960,1152。实验结果如下:
模型容量
上图中蓝色为固定大小模型768,橘黄色为扩展容量大小。可以发现随着模型容量增大,可以消除多语言训练带来的损失。

下面是训练数据对模型影响
在这里插入图片描述
可以看到,采用大容量并进行一系列扩充的CC数据集表现要好于维基数据。

采样率对模型的影响
在这里插入图片描述

字典大小对模型影响
在这里插入图片描述
batch size对模型的影响
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/249390?site
推荐阅读
相关标签
  

闽ICP备14008679号