当前位置:   article > 正文

Facebook 提出一种新型BERT:面向跨语言理解的XLM-R_多语言诅咒

多语言诅咒

解读者:刘杰鹏

论文标题:Unsupervised Cross-lingual Representation Learning at Scale

论文作者:Alexis Conneau、Kartikay Khandelwal 等(Facebook AI)

论文地址:

https://static.aminer.cn/misc/pdf/1911.02116.pdf

论文代码:

https://github.com/pytorch/fairseq

摘要

本文的XLM-R(XLM-RoBERTa)证明了使用大规模多语言预训练的模型可以显著提高跨语言迁移任务的性能。XLM-R在技术上等同于XLM+RoBERTa,在数据上使用100种语言、2.5TB文本数(CommonCrawl项目爬取的)进行训练。

战绩如下:

XLM-R在四个跨语言理解基准测试中取得了迄今为止最好的结果。这4个任务包括了跨语言的分类、序列标注和问答

(1)在XNLI跨语言自然语言推理数据集上的平均准确率,高于多语言BERT(mBERT)13.8%,分别高出此前先进结果 Unicoder (Huang et al., 2019) 和 XLM (MLM+TLM) 4.7% 和 5%。

(2)在Facebook最近推出的[MLQA问题回答数据集](https://ai.facebook.com/blog/mlqa-evaluating-cross-lingual-extractive-question-answering/)上,XLM-R在平均F1得分和准确率上分别比mBERT高出12.3%和10.6%。XLM-R比此前最先进模型在F1上高出了8.4%。

(3)在NER数据集的平均F1得分上,XLM-R比此前最先进模型高出了2.1%。

(4)XLM-R模型在低资源数据上的表现如下:

  • 在XNLI的Swahili 上,XLM-R在准确率上比mBERT高出11.8%
  • 在XNLI的Urdu 上,XLM-R在准确率上比mBERT高出9.2%

此外,本文还对提升模型性能的关键因素进行了详细的实证评估,主要包括:

  • 正向迁移和能力稀释(capacity dilution)之间的权衡
  • 高资源语言和低资源语言在语料尺度上的权衡

最终,本文的XLM-R模型首次实现了在不牺牲每种语言性能的情况下进行多语言建模。

介绍

跨语言理解领域的早期工作已经证明多语言遮蔽语言模型(multilingual masked language models) 在跨语言理解方面的有效性,但是诸如XLM和multilingual BERT这样的模型(都在Wikipedia上预训练)在学习低资源语言的有用表征方面仍然能力有限。

本文首先在规模上对多语言模型的利弊和局限性进行了全面的分析。在实验中我们衡量了高资源和低资源语言之间的权衡以及数据抽样率和词典大小的影响。实验结果表明在固定模型参数下对语言数量的权衡:在一定程度上,更多的语言可以提高低资源语言的跨语言性能,超过这个临近点后,在单语和跨语言基准测试上的整体性能将下降。这种现象称为"多语言诅咒"(curse of multilinguality)。通过简单地增大模型,可以有效地缓解多语言诅咒。然而,我们认为,这仍然是未来跨语言理解(XLU)系统的一个重要限制。

相比于 XLM 和 mBERT,XLM-R有以下几个方面改进:

(1)在XLM和RoBERTa中使用的跨语言方法的基础上(所以,方法上就是XLM+RoBERTa,没有其他了),在新模型中增加了语种数量和训练数据集的数量,具体来说使用超过2TB的已经预处理过的CommonCrawl

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/345614
推荐阅读
相关标签
  

闽ICP备14008679号