赞
踩
【导言】这篇综述是复旦大学的邱锡鹏教授对近两年的预训练语言模型(PTM)做的综述,全文有25页,文章很全面,边读边译。文章太长了,一次性读太多有点消化不了,慢慢更新吧。
原文链接:Pre-trained Models for Natural language Processing: A Survey
摘要:最近,预训练模型(PTM)的出现将自然语言处理(NLP)带入了一个新的领域。在这篇综述中,我们为自然语言预训练模型提供了一个全面概述。我们首先简短介绍一下语言表示学习与其研究历程。然后我们基于四种观点对现有的PTM进行了系统的分类。接下来,我们描述了如何将PTM应用到下游任务。最后,我们概述了PTM的未来的一些潜在发展方向。这篇综述旨在为理解、使用和开发各种适用于NLP任务的PTM提供实践指南。
关键字:深度学习,神经网络,自然语言处理,预训练模型,分布式表示,词嵌入,自监督学习,语言建模
随着深度学习的发展,各种神经网络已广泛用于解决自然语言处理(NLP)任务,例如卷积神经网络(CNN),递归神经网络(RNN) ,图论神经网络(GNN)和注意力机制。这些神经模型的优点之一是它们减轻特征工程问题的能力。非神经NLP方法通常很大程度上依赖于离散的手工特征,而神经方法通常使用低维和密集向量(又称为分布式表示)来隐式表示语言的语法语义特征。 这些表示是在特定的NLP任务中学习的。 因此,神经方法使人们易于开发各种NLP系统。
尽管用于NLP任务的神经模型取得了成功,但与“计算机视觉”(CV)领域相比,性能改进的重要性可能较低。 主要原因是大多有数与监督的NLP任务的当前数据集非常小(机器翻译除外)。 深度神经网络通常具有大量参数,这会使它们过度拟合这些小的训练数据,并且不能很好地推广实践。 因此,许多NLP任务的早期神经模型相对较浅,通常仅包含1-3个神经层。
最近,大量的工作表明,大型语料库上的预训练模型(PTM)可以学习通用语言表示,这对于下游NLP任务很有帮助,并且可以避免从头开始训练新模型。 随着计算能力的发展,深层模型(即Transformer )的出现以及训练手段的不断增强,PTM的体系结构已从浅层发展到深层。第一代PTM可以学习良好的词嵌入。 由于下游任务不再需要这些模型本身,因此对于计算效率而言,它们通常很浅,例如Skip-Gram和GloVe。 尽管这些预先训练的嵌入可以捕获单词的语义,但它们没有上下文,也无法捕获上下文中的高级概念,例如多义歧义消除,句法结构,语义角色,指代。第二代PTM专注于学习上下文词嵌入,例如CoVe,ELMo,OpenAI GPT和BERT。下游任务仍然需要这些学习过的编码器来表示上下文中的单词。 此外,还提出了各种预训练任务来学习PTM,以达到不同的目的。
本篇综述的贡献如下:
1.全面概述。我们为自然语言PTM提供了一个全面概述,包括背景知识、模型架构、预训练任务、各种扩展、适应方法和应用。
2.新分类。我们提出了用于NLP的PTM分类法,该分类法从四个不同的角度对现有PTM进行了分类:1)表示类型;2)模型架构; 3)预训练任务的类型; 4)特定类型场景的扩展。
3.丰富的资源。我们在PTM上收集了丰富的资源,包括PTM的开源实现,可视化工具,语料库和论文清单。
4.未来方向。我们讨论并分析现有PTM的局限性。 另外,我们建议可能的未来研究方向。
其余的章节安排如下。 第2节概述了PTM的背景概念和常用符号。 第3节简要概述了PTM,并阐明了PTM的分类。 第4节提供了PTM的扩展。 第5节讨论如何将PTM的知识转移到下游任务。 第6节提供了PTM的相关资源。 第7节介绍了各种NLP任务中的应用集合。 第8节讨论了当前的挑战并提出了未来的方向。 第9节总结了论文。
一个好的表示应该表达不是特定任务的通用先验,而是可能对于学习机解决AI任务很有用。在语言方面,良好的表示应能捕捉文本数据中隐含的语言规则和常识知识,例如词汇含义,句法结构,语义角色,甚至语用学。
分布式表示的核心思想是通过低维实值矢量来描述一段文本的含义。并且向量的每个维度都没有相应的意义,而整体则代表一个具体的概念。图1说明了NLP的通用神经体系结构。 词嵌入有两种:非上下文嵌入和上下文嵌入。它们之间的区别在于,单词的嵌入是否会根据其出现的上下文动态变化。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。