赞
踩
ERINE 1.0的核心思想是只是融合,采用的是mask整个完整的实体
原句子:哈尔滨是黑龙江的省会,国际冰雪文化名城。
和GPT, BERT以及XLM一致,ERNIE也是采用多层Transformer 的Encoder部分作为基本构造模块。因为只需要Transformer的Encoder部分,该模块有如下优势:
对于中文数据,ERNIE是基于character作为基本单位,并使用了Google的Yonghui Wu的WordPiece来切割中文句子
每个句子的第一个token是填充符号[CLS]。一个token的输入表示,就包括了对如下三个向量的求和:
ERINE 1.0提出来一种多阶段知识masking的策略,来继承phrase/entity知识到语言表征学习。
仿照BERT的模型规模。ERNIE使用了12层编码层(Transformer的Encoder Layer),768维度的隐层,以及12个注意力头。
中文wikipedia – 21M句子;百度百科-51M句子;百度新闻-47M句子;百度贴吧-54M句子。
繁体转简体,大写转小写,一共有17,964个unicode character。注意,这个数字其实非常重要。
自然语言推理,Cross-lingual Natural Language Inference (XNLI) corpus
语义相似度, Large-Scale Chinese Question Matching Corpus (LCQMC),主要是判断两个句子是否有相同的intention 意图(二元分类问题)。
命名实体识别,MSRA-NER
情感分类,ChnSentiCorp, 例如hotel, books,以及电脑领域。Positive/negative的分类。
检索式QA,NLPCC-DBQA任务。
ERNIE 2.0 是基于持续学习的语义理解预训练框架,使用多任务学习增量式构建预训练任务。ERNIE 2.0 中,新构建的预训练任务类型可以无缝的加入训练框架,持续的进行语义理解学习。 通过新增的实体预测、句子因果关系判断、文章句子结构重建等语义任务,ERNIE 2.0 语义理解预训练模型从训练数据中获取了词法、句法、语义等多个维度的自然语言信息,极大地增强了通用语义表示能力。
.gif)]
此论文把预训练任务分成了三类,分别是:
Discourse Relation Task:通过判断句对 (sentence pairs) 间的修辞关系 (semantic & rhetorical relation),更好的学习句间语义。
IR Relevance Task:信息检索的相关性方面的预训练任务,给定一个query和一个title (文档标题),然后执行一个三分类任务:0表示强相关,即有用户输入了query并点击title对应的url了(来自信息检索搜索引擎的log),1表示弱相关,即用户输入了query,并且title被展示给了用户,但是用户没有点击title;2表示不相关,即他们是完全无关的,随机构成的。输入[cls] query [sep] title [sep],然后经过encoder layers,之后基于[cls]的向量表示来构建多分类任务。
都是采用的transformer encoder的结构(而且其中的层数,head 数等具有一定的一致性,例如都是有base版本和large版本);
上图中,对输入的token序列,进行了多种编码表示(四类):
建立在transformer encoder之上,是三个“粒度“的预训练任务,从word-aware开始,到structure-aware,再到semantic-aware。
然后如下图所示,不同的”粒度“的损失函数的loss scores,可以叠加:
ERNIE2.0和bert的主要区别可以分为以下几个方面:
上图是每个预训练任务所使用的具体的数据集合,可以看到前面四个数据集合,对应到了左边的五个预训练任务(红色大的矩形块);而最后两列的discourse relation和IR 相关性的任务都是(分别)只使用了最后两个数据集合。
英文与中文都有训练
通常来说,NLP可以分为(分类)自然语言理解(NLU)和(生成)自然语言生成(NLG)。在NLU方面,时下相对流行的GLUE(General Language Understanding Evaluation)排行榜举例,其上集合了九项NLU的任务,分别是
下面的实验也证明了连续多任务是要比分开的多任务和一直的多任务要好的
在过去的一两年里,预训练语言模型的一个重要趋势是其模型规模不断扩大,这导致预训练的困惑度降低,在下游任务中表现更好。Megatron-LM,有10亿个参数,被提出用于语言理解,使用简单但高效的层内模型并行方法,在几个数据集上取得了最先进的结果。T5[1]以100亿个参数探索了预训练模型的极限,但很快这个记录就被拥有1750亿个参数的GPT-3模型[2]打破了,该模型在few-shot甚至zero-shot的设置下具有良好的性能。不久之后,Switch-Transformer被提出,成为世界上第一个万亿参数的预训练语言模型。
然而,这些具有数千亿参数的大规模预训练语言模型是在普通文本上训练的。例如,1750亿参数的GPT-3是在具有570GB过滤文本的Common Crawl语料库上训练的。这样的原始文本缺乏对语言知识和世界知识等知识的明确表述。此外,大多数大规模的模型是以自回归的方式进行训练的,但是[6]显示,这种模型在适应下游语言理解任务时,表现出较差的传统微调性能。
在这项工作中,为了解决单一自回归框架带来的问题,并探索大规模参数的知识增强预训练模型的性能,我们提出了一个名为ERNIE 3.0的统一框架,通过融合自回归网络和自编码网络,在由纯文本和大规模知识图谱组成的4TB语料库上训练大规模知识增强模型。提出的ERNIE 3.0可以通过zero-shot学习、few-shot学习或微调来处理自然语言理解任务和自然语言生成任务。此外,提议的框架支持在任何时候引入各种定制任务。这些任务共享相同的编码网络,并通过多任务学习进行训练。这种方法使不同任务之间的词汇、句法和语义信息的编码成为可能。此外,当给定一个新任务时,我们的框架可以根据以前的训练参数逐步训练分布式表示,而不需要从头开始训练。
ERNIE 3.0通过知识mask语言模型来训练NLU网络,以提高捕获词汇信息的能力;通过训练句子重排任务和句子距离辨别任务来加强捕获句法信息的能力;最后通过通用知识-文本预测任务来优化模型,以提高知识记忆和推理能力。同时,ERNIE 3.0用文档语言模型任务训练NLG网络,以实现各种生成风格。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。