赞
踩
现在有很多Pretrain model 的架构, 如Bert、GPT、T5等,但是当时没有一种模型能在NLU、有条件文本生成、无条件文本生成都有很好的表现。
一般预训练模型架构分为三种:自回归(GPT系列)、自编码(Bert系列)、编码器-解码器(T5)。
作者概述了它们目前存在的问题·:
作者提到上述框架不够灵活,之前也有人做过统一这两个架构的工作,但是自编码与自回归本质的不同,不能很好的继承两个架构的优点,于是提出了一个基于自回归空白填充的语言模型(GLM),GLM通过2D的 positional encoding和允许一个任意的predict spans 来改进空白填充预训练。同时,GLM可以通过改变空白的数量和长度对不同类型的任务进行预训练。
它基于一个新颖的自回归空白填充目标。GLM将NLU任务制定为包含任务描述的cloze问题,这些问题可以通过自回归生成来回答。
在上一节中,GLM掩盖了短跨度,适用于NLU任务。然而,作者对预训练一个能同时处理NLU和文本生成的单一模型感兴趣,考虑以下两个目标。
Document-level:对单一跨度进行采样,其长度从原始长度的50%-100%的均匀分布中抽出。该目标旨在生成长文本。
Sentence-level:限制被mask的跨度必须是完整的句子。多个跨度(句子)被取样,以覆盖15%的原始token。这一目标是针对seq2seq任务,其预测往往是完整的句子或段落。
这两个新目标的定义与原目标相同,唯一不同的是的跨度数量和跨度长度。
GLM使用单一的Transformer,并对架构进行了一些修改:
(1)重新安排了层的归一化和残差连接的顺序,这已被证明对大规模语言模型避免数字错误至关重要。
(2)使用单一的线性层进行输出token预测。
(3)用GeLU替换ReLU激活函数。
略
GLM是一个用于自然语言理解和生成的通用预训练框架。NLU任务可以被表述为条件生成任务,因此可以通过自回归模型来解决。GLM将不同任务的预训练目标统一为自回归空白填充、混合注意力mask和新的二维位置编码。经验表明,GLM在NLU任务中的表现优于以前的方法,并且可以有效地共享不同任务的参数。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。