赞
踩
本文转载自JayLou娄杰,知乎专栏《高能NLP》作者,已与原作者取得联系,已获授权。原文地址:https://zhuanlan.zhihu.com/p/76912493
https://zhuanlan.zhihu.com/p/115014536
本文以QA形式总结对比了nlp中的预训练语言模型,主要包括3大方面、涉及到的模型有:
Question List:
Summary Table
写在前面
微软亚洲研究院成立20周年时表示:NLP将迎来黄金十年[1]。回顾基于深度学习的NLP技术的重大进展,从时间轴来看主要包括[2]:NNLM(2003)、Word Embeddings(2013)、Seq2Seq(2014)、Attention(2015)、Memory-based networks(2015)、Transformer(2017)、BERT(2018)、XLNet(2019):
ACL2019NLP进展趋势主要包括[3]:预训练语言模型、低资源NLP任务(迁移学习/半监督学习/多任务学习/主动学习)、模型可解释性、更多任务&数据集。本文主要介绍从【预训练语言模型】角度介绍NLP领域的进展。【预训练语言模型】已经形成了一种新的 NLP 范式[4]: 使用大规模文本语料库进行预训练,对特定任务的小数据集微调,降低单个 NLP 任务的难度。
预训练思想的本质是模型参数不再是随机初始化,而是通过一些任务(如语言模型)进行预训练;预训练属于迁移学习的范畴,本文的【预训练语言模型】主要指无监督预训练任务(有时也称自学习或自监督),迁移的范式主要为特征集成和模型精调(finetune)。
语言模型表示序列文本的联合概率分布,为降低对长文本的概率估算难度,通常使用一个简化的n-gram模型[5]。为缓解n元语言模型概率估计时遇到的数据稀疏问题,提出了神经网络语言模型NNLM,第一层参数可用作词向量表示。词向量可看作是NNLM的一个副产品,而word2vec通过一些优化技巧专注于词向量的产生,后来的glove词向量是通过共现语料矩阵进行高效分解产生的,glove也可看作是更换了目标函数和权重函数的全局word2vec。由于word2vec、glove等静态词向量未考虑一词多义、无法理解复杂语境,可通过预训练语言模型产生上下文相关的特征表示(动态词向量)。
(注:本文没有把word2vec纳入预训练语言模型的范畴,虽然word2vec可看作语言模型,但其更专注于词向量的产生。本文的预训练语言模型主要指能够产生上下文相关的特征表示)
随着ELMO/GPT/BERT等预训练语言模型在NLP任务取得SOTA结果,之后又开发了一系列的新的方法,如MASS、UNILM、ERNIE1.0、ERNIE(THU)、MTDNN、ERNIE2.0、SpanBERT、RoBERTa、XLNet、XLM 等。预训练语言模型推动了NLP技术的进步,引起了各界广泛关注。
预训练语言模型进展,图片来自于[2]
本文通过以下几个方面对【预训练语言模型】进行介绍:
一. 不同视角下的预训练语言模型对比
二.预训练语言模型的基础:特征抽取机制+语言模型的分类
三.单向模型回顾+内核机制探究
四.BERT的内核机制探究
五.BERT系列模型进展介绍
六.XLNET的内核机制探究
七.预训练语言模型的未来
Q1:从不同维度对比【预训练语言模型】
从特征抽取、预训练语言模型目标、BERT系列模型的改进方向、特征表示4个视角,对比预训练语言模型:
不同的特征抽取机制
不同的预训练语言目标
BERT系列模型的改进
特征表示(是否能表示上下文):
Q2:基于深度学习的NLP特征抽取机制有哪些?各有哪些优缺点?
1)能否处理长距离依赖问题
长距离依赖建模能力: Transformer-XL > Transformer > RNNs > CNNs
MLP:不考虑序列(位置)信息,不能处理变长序列,如NNLM和word2vec;
CNNs:考虑序列(位置)信息,不能处理长距离依赖,聚焦于n-gram提取,pooling操作会导致序列(位置)信息丢失;
RNNs:天然适合处理序列(位置)信息,但仍不能处理长距离依赖(由于BPTT导致的梯度消失等问题),故又称之为“较长的短期记忆单元(LSTM)”;
Transformer/Transformer-XL:self-attention解决长距离依赖,无位置偏差;
2)前馈/循环网络 or 串行/并行计算
3)计算时间复杂度(序列长度n,embedding size为d,filter大小k)
Q3:自回归和自编码语言模型各有什么优缺点?
1.自回归语言模型
2.自编码语言模型
优点:本质为降噪自编码特征表示,通过引入噪声[MASK]构建MLM,获取上下文相关的双向特征表示;
引入独立性假设,为联合概率的有偏估计,没有考虑预测[MASK]之间的相关性
代表模型:BERT系列模型;
三、单向模型回顾+内核机制探究
Q4:单向模型的内核机制是怎样的?有哪些缺点?
1、ELMO(华盛顿大学)[6]
2、ULMFiT/SiATL
3、GPT1.0/GPT2.0(OpenAI)
四、BERT内核机制探究
这一部分对BERT的内核机制进行介绍,在回答“BERT为什么如此有效?”之前,首先介绍Transformer的内核机制。
Q5:Transformer[12]内部机制的深入理解(回顾)
1、Multi-Head Attention和Scaled Dot-Product Attention:
本质是self attention通过attention mask动态编码变长序列,解决长距离依赖、无位置偏差、可并行计算;
2、Position-wise Feed-Forward Networks:
FFN 将每个位置的Multi-Head Attention结果映射到一个更大维度的特征空间,然后使用ReLU引入非线性进行筛选,最后恢复回原始维度。
Transformer在抛弃了 LSTM 结构后,FFN 中的 ReLU成为了一个主要的提供非线性变换的单元。
3、Positional Encoding:
将Positional Embedding改为Positional Encoding,主要的区别在于Positional Encoding是用公式表达的、不可学习的,而Positional Embedding是可学习的(如BERT),两种方案的训练速度和模型精度差异不大;但是Positional Embedding位置编码范围是固定的,而Positional Encoding编码范围是不受限制的。
为什么引入
s
i
n
sin
sin和
c
o
s
cos
cos建模Positional Encoding?
引入
s
i
n
sin
sin和
c
o
s
cos
cos是为了使模型实现对相对位置的学习,两个位置 pos 和 pos+k 的位置编码是固定间距k的线性变化:
可以证明:间隔为k的任意两个位置编码的欧式空间距离是恒等的,只与k有关。
Q6:BERT[13]为什么如此有效?
Q7:BERT存在哪些优缺点?
Q8:BERT擅长处理哪些下游NLP任务[14]?
Q9:BERT基于“字输入”还是“词输入”好?(对于中文任务)
Q10:BERT为什么不适用于自然语言生成任务(NLG)?
由于BERT本身在预训练过程和生成过程的不一致,并没有做生成任务的相应机制,导致在生成任务上效果不佳,不能直接应用于生成任务。
如果将BERT或者GPT用于Seq2Seq的自然语言生成任务,可以分别进行预训练编码器和解码器,但是编码器-注意力-解码器结构没有被联合训练,BERT和GPT在条件生成任务中只是次优效果。
五、BERT系列模型进展介绍
这一部分介绍一些模型,它们均是对BERT原生模型在一些方向的改进。
Q11:针对BERT原生模型,后续的BERT系列模型是如何改进【生成任务】的?
1、MASS(微软)[15]
2、UNILM (微软)[16]:
统一预训练框架:和直接从mask矩阵的角度统一BERT和LM;
3个Attention Mask矩阵:LM、MLM、Seq2Seq LM;
注意:UNILM中的LM并不是传统的LM模型,仍然是通过引入[MASK]实现的;
Q12:针对BERT原生模型,后续的BERT系列模型是如何引入【知识】的?
1、ERNIE 1.0 (百度)[17]:
2、ERNIE (THU)[18]:
Q13:针对BERT原生模型,后续的BERT系列模型是如何引入【多任务学习机制】的?
多任务学习(Multi-task Learning)[19]是指同时学习多个相关任务,让这些任务在学习过程中共享知识,利用多个任务之间的相关性来改进模型在每个任务的性能和泛化能力。多任务学习可以看作是一种归纳迁移学习,即通过利用包含在相关任务中的信息作为归纳偏置(Inductive Bias)来提高泛化能力。多任务学习的训练机制分为同时训练和交替训练。
1、MTDNN(微软)[20]:在下游任务中引入多任务学习机制
2、ERNIE 2.0 (百度)[21]:
Q14:针对BERT原生模型,后续的BERT系列模型是如何改进【mask策略】的?
原生BERT模型:按照subword维度进行mask,然后进行预测;局部的语言信号,缺乏全局建模的能力。
RoBERTa(FaceBook):[24]
六、XLNet的内核机制探究
在BERT系列模型后,Google发布的XLNet在问答、文本分类、自然语言理解等任务上都大幅超越BERT;XLNet的提出是对标准语言模型(自回归)的一个复兴[25],提出一个框架来连接语言建模方法和预训练方法。
Q16:XLNet[26]提出的背景是怎样的?
Q17:XLNet为何如此有效:内核机制分析
1、排列语言模型(Permutation LM,PLM):
如果衡量序列中被建模的依赖关系的数量,标准的LM可以达到上界,不像MLM一样,LM不依赖于任何独立假设。借鉴 NADE[27]的思想,XLNet将标准的LM推广到PLM。
如果采取标准的Transformer来建模PLM,会出现没有目标(target)位置信息的问题。问题的关键是模型并不知道要预测的到底是哪个位置的词,从而导致具有部分排列下的PLM在预测不同目标词时的概率是相同的。
3、 融入Transformer-XL的优点(具体见Q18)
Q18:Transformer-XL[28]怎么实现对长文本建模?
七、预训练语言模型的未来
上述的【预训练语言模型】主要从2大方面进行介绍:一是总的对比;二是分别介绍单向语言模型、BERT系列模型、XLNet模型。
可以看出,未来【预训练语言模型】更多的探索方向主要为[25]:
1、本文将继续关注【预训练语言模型】,并继续更新 新的模型;
2、如有错误或不足,请加以指正;未经允许,不得转载。)
[1]^.NLP将迎来黄金十年 https://www.msra.cn/zh-cn/news/executivebylines/tech-bylines-nlp
[2]^a review of the recent history of nlp
[3]^AIS:ACL2019进展报告
[4]^ACL 主席周明:一起拥抱 ACL 和 NLP 的光明未来
[5]^自然语言处理中的语言模型预训练方法 https://www.jiqizhixin.com/articles/2018-10-22-3
[6]^ELMO:Deep contextualized word representations
[7]^ULMFiT:Universal Language Model Fine-tuning)
[8]^SiATL:An Embarrassingly Simple Approach for Transfer Learning from Pretrained Language Models
[9]^BERT时代与后时代的NLP https://zhuanlan.zhihu.com/p/66676144
[10]^GPT:Improving Language Understanding by Generative Pre-Training
[11]^GPT2.0:Language Models are Unsupervised Multitask Learners
[12]^Transformer:Attention is all you need
[13]^BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
[14]^Bert时代的创新(应用篇):Bert在NLP各领域的应用进展 https://zhuanlan.zhihu.com/p/68446772
[15]^MASS: Masked Sequence to Sequence Pre-training for Language Generation
[16]^UNILM:Unified Language Model Pre-training for Natural Language Understanding and Generation
[17]^ERNIE: Enhanced Representation through Knowledge Integration
[18]^ERNIE: Enhanced Language Representation with Information Entities
[19]^nndl:神经网络与深度学习
[20]^MT-DNN:Multi-Task Deep Neural Net for NLU
[21]^ERNIE 2.0: A CONTINUAL PRE-TRAINING FRAMEWORK FOR LANGUAGE UNDERSTANDING
[22]^陈凯:https://www.zhihu.com/question/337827682/answer/768908184
[23]^SpanBert:对 Bert 预训练的一次深度探索
[24]^RoBERTa: A Robustly Optimized BERT Pretraining Approach
[25]^ab他们创造了横扫NLP的XLNet:专访CMU博士杨植麟
[26]^XLnet: Generalized Autoregressive Pretraining for Language Understanding
[27]^Neural autoregressive distribution estimation
[28]^Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。