赞
踩
早期的 NLP 系统大多是基于规则的,后来被机器学习模型所取代。从头开始训练深度学习语言模型需要大量的标记数据,生成成本昂贵,但很容易获得大量未标记的文本数据。同时,迁移学习允许重用在源任务中学到的知识,以便在目标任务中表现良好。近年来,Transformers 比传统 RNN 更受欢迎。结合 Transformer 和迁移学习的力量,NLP 领域的研究人员开发了基于 Transformer 的自监督语言模型。
在本文中,我们将概述基于 Transformer 的自监督语言模型,并解释包括预训练和下游适应在内的核心概念。我们还将比较几种流行的自监督模型,包括GPT3和BERT(基于 Transformer 的自监督语言模型的先驱)、MUM(近年来为许多 Google 功能提供支持的模型)以及PaLM(该模型的最新突破)。域。
传统上,大型语言模型是通过监督学习来训练的,即从人类标记的数据中学习。这些模型在特定任务上表现良好,但它们需要大量标记数据才能实现良好的性能,并且通常缺乏泛化能力。这些问题在自监督学习中得到了解决,因为只需要少量甚至0(在0-shot学习的情况下)人类标记数据,而绝大多数未标记数据都可以利用。
预训练
预训练过程通常是无人监督的。标签是根据数据属性和预训练任务的定义自动生成的。对大量未标记数据进行预训练有助于模型学习通用语法和语义模式,这些语法和语义模式稍后可以转移到特定的下游任务。我们可以将其类比为人类获得基本常识。
下游适应
这就是迁移学习发挥作用的地方。只需添加一两个特定层即可使预训练模型适应下游任务。下游适应帮助我们避免从头开始训练下游模型,用小数据集获得良好的性能,并防止过度拟合。将预训练的语言表示应用于下游任务有不同的策略,包括:
基于特征的方法预训练语言表示并将其用作下游模型中的输入特征。Word2Vec 就是一个例子。
2. 微调
与基于特征的方法不同,我们需要训练单独的下游模型,微调方法只是使用特定于任务的标记数据来微调预训练模型中的所有参数。
3.少样本学习
小样本学习是元学习的一种。与微调方法中使用的标准监督学习不同,小样本学习不需要大型标记数据集。相反,它只需要少量样本(它们称为支持集),并且在推理时模型根据数据与支持集的相似度进行预测。少样本学习的特殊情况是单样本学习和零样本学习,其中仅提供一个或零个下游示例。
当今尖端语言模型的另一个关键共同特征是它们都是 Transformer。由于梯度消失问题,传统的 RNN 深度学习模型很难对长期上下文进行建模。为了克服这个问题,研究人员开发了一种称为 Transformers 的新型深度学习模型。与顺序处理输入标记的传统 RNN 相比,Transformer 一次性处理所有单词,使其高度可并行化。Transformers 的主要构建块是自注意力,这是注意力的一种变体,它将序列中的每个元素替换为序列其余部分的加权平均值。Transformer 有几种不同的架构:将序列中的每个元素替换为序列其余部分的加权平均值。Transformer 有几种不同的架构:
这在原始 Transformer 模型中使用。编码层生成输入的编码,而解码层处理编码以生成输出序列。编码器层和解码器层都有前馈神经网络并利用注意力机制。
2. 仅编码器
仅编码器模型旨在为每个输入标记或序列生成单个预测,这意味着它们适用于分类任务,但不适用于机器翻译或文本摘要等生成任务。编码器是双向的,由两个主要部分组成:自注意力机制和前馈神经网络。
3. 仅解码器
解码器模型是自回归的,这意味着每个步骤的输出都会作为输入馈入下一步。这也意味着解码器是单向的。在没有编码器对输入句子进行编码的情况下,解码器本身会根据输入句子以及迄今为止输出的内容来学习如何关注。
是时候深入研究几个新颖的模型了!下面按时间顺序列出了这些型号。
来自 Transformers 的双向编码器表示(BERT)是最早开发的基于 Transformer 的自监督语言模型之一。BERT有340M参数,是一个仅编码器的双向Transformer。
BERT 使用来自 BooksCorpus(8 亿字)和英语维基百科(2,500M 字)的未标记语言序列进行预训练。回想一下,预训练是无人监督的。为了构建预训练目标,每个序列中所有标记的 15% 被随机屏蔽,并且训练模型来预测被屏蔽的单词,而不是重建整个输入。这称为“掩码语言模型”(MLM)。除了 MLM 之外,BERT 还使用“下一句话预测”任务来联合预训练模型。
微调应用于下游适应,其中特定于任务的输入和输出被插入到 BERT 中,并且所有参数都经过端到端微调。
GPT3 是 Open AI 的 GPT 模型系列的一部分。这正是为著名的 ChatGPT 提供支持的模型。它是一个仅解码器的单向自回归模型,具有 175B 参数(比 BERT 大得多)。
与BERT不同的是,GPT3尝试用few-shot学习替代下游的微调。该模型在推理时给出了任务的少量数据演示作为调节,但与微调方法不同的是,没有权重更新。这是受到以下事实的启发:一旦人类有了一般的语言理解,我们不一定需要大型监督数据集来学习大多数语言任务。尽管在大多数情况下微调仍然优于少样本学习,但 GPT3 表明,在某些任务中,零样本、单样本和少样本设置几乎与最先进的微调的性能相匹配系统。
Open AI 计划很快发布 GPT4,这可能会成为另一个表现最佳的产品。一旦它出来我会专门写一篇文章。敬请关注!
多任务统一模型 (MUM) 是为当今复杂的 Google 搜索提供动力的技术。
MUM 使用 Text-To-Text Transfer Transformer(T5),这是一种编码器-解码器、多任务学习模型,结合了初始无监督预训练(作为一个任务)和针对特定任务的微调(每个作为一个任务)。它在微调之前对无监督和监督任务的多任务混合进行预训练,因此我们可以在任何 NLP 任务上使用相同的模型、损失函数和超参数。
MUM 是多模式的,因此它可以理解文本和图像中的信息。它有 11B 个参数,并且同时接受了 75 种不同语言和许多不同任务的训练,使其能够比以前的模型更全面地理解信息和世界知识。事实上,它比 BERT 强大 1000 倍。
Pathways 语言模型 (PaLM) 是 Google 的最新突破。它已扩展到 540B 参数,但可以通过 Pathways 系统进行有效训练,Pathways 系统是一种新的 ML 系统,可以跨数千个加速器芯片对超大型神经网络进行高效训练。
PaLM 具有标准的编码器-解码器 Transformer 模型架构,并进行了一些修改。凭借大规模的参数,它表现出了出色的小样本性能,在 29 个最广泛评估的英语 NLP 任务中的 28 个上取得了最先进的结果,包括代码生成、问答、多语言生成、NMT、推理ETC。
值得一提的是,PaLM在算术和常识推理任务上都有突破性的表现。这是通过规模和思维链提示相结合来实现的,其中模型在做出预测之前被明确提示生成自然语言逻辑推理链。等等,这不是我们人类自然会做的事吗?
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。