当前位置:   article > 正文

【预训练语言模型】RoBERTa: A Robustly Optimized BERT Pretraining Approach

roberta: a robustly optimized bert pretraining approach

【预训练语言模型】RoBERTa: A Robustly Optimized BERT Pretraining Approach

  作者发现BERT以及提供的预训练语言模型并没有得到充分的训练,因此本文提出RoBERTa以挖掘BERT模型,并提供充分的训练。作者认为,扩增训练语料增大预训练的迭代次数去掉Next Sentence Prediction在更长的序列上训练动态Masking等策略(Trick)可以大幅度提升BERT的性能。

简要信息:

序号属性
1模型名称RoBERTa
2所属领域自然语言处理
3研究内容预训练语言模型
4核心内容BERT改进
5GitHub源码https://github.com/pytorch/fairseq
6论文PDFhttps://arxiv.org/pdf/1907.11692.pdf

一、动机

  • 现有的基于self-training的语言模型(例如ELMo、GPT、BERT等)方法虽然达到了SOTA,但是很难判断那个部分对效果具有很大的促进作用。同时预训练成本很高,使用的provate data限制了模型扩展;
  • 我们发现BERT预训练模型并没有得到充分的训练,语义挖掘能力还有一定提升空间;

二、背景——BERT模型及实验设置

  可直接参考BERT讲解。

三、RoBERTa——Robustly optimized BERT approach

3.1 More Data

  BERT只用了Wikipedia和BookCorpus,RoBERTa又额外扩增了训练语料。RoBERTa一共在5个语料上训练,包括Wikipedia、BookCorpus、CC-News、OpenWebText和Stories。后续的实验均在这5个语料上完成。

3.2 Dynamic Making Strategy

  Masked Language Modeling是BERT中非常重要的预训练目标,但是,在BERT训练过程中,带有随机Mask的语料是数据预处理阶段得到的,而在训练过程中则固定不变(Static Masking)。因此BERT在训练时,对于每一个句子,每次都将见到相同Mask。

  因此RoBERTa提出动态地改变每次训练时Mask采样位置(Dynamic Masking)。即每迭代一次训练,重新对每个句子的Mask进行采样。该策略间接实现了数据增强,且提高了鲁棒性。通过改变Mask策略,在QA、NLI以及分类任务上有提升:
在这里插入图片描述

3.3 The necessary of NSP?

  Next Sentence Prediction(NSP)通常对sentence-pair的输入进行训练,目标是预测两个句子是否存在前后关系。但RoBERTa发现去掉NSP效果反而更好:
在这里插入图片描述

3.4 Larger Batch Size

  在BERT中,batch size设置为256,一个epoch需要训练超过1M步。RoBERTa训练过程中,增大了batch size。如下表:
在这里插入图片描述
不同的batch size以及对应的学习率。实验发现当batch size为2k时,效果可以达到最好。batch size设置大可以采用数据并行方法进行训练。

3.5 Text Encoding——BPE

  Byte-Pair Encoding(BPE)由Neural Machine Translation of Rare Words with Subword Units提出解决在机器翻译领域中出现的Out-of- Vocabulary(OOV)问题。主要通过wordpiece技术将word分解为更为细粒度的片段。RoBERTa采用BPE,获得了超过5w个token(BERT只有3w)。

BPE的详解可参考:BPE(Byte Pair Encoding)算法

四、实验

  RoBERTa参与了SQuAD、RACE和GLUE的打榜,并与当时最好的模型XLNet进行比对,结果如下:

SQuAD

在这里插入图片描述

其中SG-Net是一个抽取式问答的模型,博主做过论文解读,可参考:机器阅读理解算法集锦

RACE

在这里插入图片描述

GLUE

在这里插入图片描述

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号