赞
踩
作者:Suchin Gururangan, Ana Marasović, Swabha Swayamdipta, Kyle Lo, Iz Beltagy, Doug Downey and Noah A. Smith
背景(nlp中语言模型的“预训练(pretraining)”)
在输入模型之前需要变成向量
nlp模型训练分为两个阶段:
word2vec:
左边:CBOW模型,右边:Skip-gram模型
两者区别:
解决问题
目标领域应该应用什么领域的预训练?有没有必要多次预训练?
解决对策
设计了4个领域上的8个分类任务(每个领域上各有2个分类任务),将已经在大量且广泛文本上预训练过的模型(ROBERT)进行第二阶段的预训练。
作者分别用领域数据、任务数据、增强的任务数据进行了实验,即用这些数据对模型进行第二阶段的预训练,然后再用经过两个预训练阶段后得到的模型生成的数据做分类任务。
创新点:
当我们所执行任务的标注数据较少,所属的领域与初始预训练语料越不相关,而又能获取到充分的、任务相关的无标注数据时,就需要进行领域预训练和任务预训练。
未来的研究方向:
如何采取一个更有效的数据选择方法,来构建更多的、任务相关的无标注数据,有效地将大型预训练语言模型重构到更远的domain,并且获得一个可重用的语言模型。
领域自适应预训练(DAPT):
在预训练完成的语言模型 RoBERTa 的基础上,分别使用4个领域的数据接着做第二阶段的预训练,生成4个领域自适应的语言模型。
任务自适应预训练(TAPT):
将各个任务本身的训练数据当作无标签数据来进行第二阶段的预训练,得到8个任务自适应的预训练语言模型
任务自适应预训练的增强方法(Curated-TAPT):
考虑如果拥有庞大的数据集会怎么样?
两种构造更多的、任务相关的无标注数据的增强方式:1)人工构造;2)自动数据选择
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。