赞
踩
传统的GPT和BERT的缺陷:在训练的时候并没有引入先验的知识,所以说训练出来的model尽管表现很好,这是由训练量巨大造福的。但也会在自然语言理解任务上表现weak。ERNIE是在一个由纯文本和一个大规模知识图组成的4TB语料库上,用100亿个参数训练该模型。
We trained the model with 10 billion parameters on a 4TB corpus consisting of plain texts and a large-scale knowledge graph.
综上,ERNIE的贡献如下:
We propose a unified framework ERNIE 3.0, which combines auto-regressive network and auto-encoding
network so that the trained model can handle both natural language understanding and generation tasks through
zero-shot learning, few-shot learning or fine-tuning.
We pre-train large-scale knowledge enhanced models with 10 billion parameters and evaluate them with a series
of experiments on both natural language understanding and natural language generation tasks. Experimental
results show that ERNIE 3.0 consistently outperforms the state-of-the art models on 54 benchmarks by a large
margin and achieves the first place on the SuperGLUE benchmark.
In order to explore the effectiveness of knowledge enhanced large-scale pre-trained model, we propose the ERNIE 3.0 framework to pre-train model on massive unsupervised corpus including plain texts and knowledge graph. Furthermore, we employ various types of pre-
training tasks to enable the model to learn the different levels of knowledge consisting of valuable lexical, syntactic 3and semantic information more effectively, in which the pre-training tasks spread three task paradigms, that is natural language understanding, natural language generation and knowledge extraction. Therefore, ERNIE 3.0 innovatively designs a **Continual Multi-Paradigms Unified Pre-** **training Framework** to enable the collaborative pre-training among multi-task paradigms.
- 1
- 2
- 3
- 4
- 5
- 6
- 7
Ernie3.0框架,试图对包括大量纯文本和知识图谱在内的大规模无监督语料进行预训练,此外,为了是model学到更多的有价值的词汇、句法和语义信息组成的不同层次的知识,其中预训练任务分布在三个任务范式中,即自然语言理解、自然语言生成和知识提取,因此,ERNIE 3.0创新性地设计了一个连续的多范式统一预训练框架,以实现多任务范式间的协同预训练。
作者认为,自然语言处理的不同任务范式对相同的底层抽象特征的依赖是一致的,如词汇信息和句法信息,但对顶层具体特征的要求是不一致的,其中自然语言理解任务有学习语义连贯性的要求,而自然语言生成任务则期望进一步的语境信息。因此,受多任务学习的经典模型架构的启发,即低层是所有任务共享的,而顶层是特定任务的。ERNIE 3.0,使不同的任务范式能够共享在一个共享网络中学习的底层抽象特征,并分别利用在他们自己的特定任务网络中学习的特定任务顶层具体特征。ERNIE 3.0利用了ERNIE 2.0中引入的持续的多任务学习框架[33]。至于不同种类的下游任务的应用,我们将首先用预训练好的共享网络和相应的特定任务网络的参数组合来初始化ERNIE 3.0,用于不同的任务范式,然后利用特定任务的数据执行相应的后续程序。
ERNIE 3.0不仅使模型能够区分不同任务范式的特定语义信息,而且缓解了大规模预训练模型在有限的时间和硬件资源下难以实现的困境,其中ERNIE 3.0允许模型只在微调阶段更新特定任务表示网络的参数。具体来说,ERNIE 3.0采用了一个通用表示模块和两个特定任务表示模块的协作架构,即自然语言理解(NLU)特定表示模块和自然语言生成(NLG)特定表示模块。如上图。
Universal Representation Module:论文使用了一个多层Transformer-XL网络,该网络除了引入了辅助递归记忆模块,以帮助建模较长的文本外和transformer基本一致。为了更好地获取各种语义信息,ERNIE 3.0设置了更大尺寸的通用表示模块。该记忆模块仅对控制注意力掩码矩阵的自然语言生成任务有效。具体设置是48层, 4096 隐藏单元和64注意力头。
Task-specific Representation Modules:针对该模型,同样使用了多层的Transformer-XL网络。这里使用的是一个基础模型尺寸(base),因为论文认为:一是基础网络比多层感知机和浅层transformer网络具有更强的语义信息捕获能力;二是具有基本模型规模的任务特定网络使ERNIE 3.0能够在不显著增加大规模模型参数的情况下区分不同任务范式之间的顶层语义信息;并且,这也会让模型在fine-turn的时候减轻很大的压力。这里NLU是一个双向建模网络,而NLG是一个单向建模网络。具体是12层, 768 隐藏单元和12注意力头。
ERNIE 1.0[7]提出了一个有效的策略,通过知识集成来加强表示,即知识集成mask语言模型任务。它引入了短语mask和命名实体mask,预测整个被mask的短语和命名实体,以帮助模型学习本地语境和全球语境中的依赖信息。
文本语言任务使用传统语言模型(GPT)作为预训练任务。
句子重排序任务训练模型通过重组排列好的片段来学习句子之间的关系,具体来说,会先随机拆分成1-m个段,再打乱顺序,让模型还原。就变成了一个分类问题,对于每一种分法,有n!种类。
句子距离任务可以看作是一个三分类任务,三个分类分别是相邻,不相邻但是在同一个文档当中和不在同一个文档当中。
为了将知识整合到一个预训练的语言模型中,论文引入了通用知识-文本预测(UKTP:universal knowledge-text prediction)任务。给定一对知识图谱中的三元组和百科全书中相应的句子,论文随机屏蔽三元组中的关系或句子中的单词,进行还原任务。为了预测三元组中的关系,该模型需要检测头部实体和尾部实体的提及情况,并确定它们在相应句子中的语义关系。获得对应关系的过程是这样的:给定百科全书中的一篇文档,首先在知识图中找到提及头部实体或尾部实体为文档标题的候选三元组,然后从候选三元组中选择提及头部实体和尾部实体在文档中相同句子的候选三元组。
ERNIE 3.0通过知识mask语言模型(单词感知)来训练NLU网络,以提高捕获词汇信息的能力;通过训练句子重排任务和句子距离(结构感知)辨别任务来加强捕获句法信息的能力;最后通过通用知识-文本预测(知识感知)任务来优化模型,以提高知识记忆和推理能力。同时,ERNIE 3.0用文档语言模型任务训练NLG网络,以实现各种生成风格。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。