赞
踩
**
**
论文标题翻译:文本压缩辅助的变压器编码
目前最先进的变压器编码器(Transformer encoder)中的自关注机制已经很好地完成了这一工作,它给许多NLP任务带来了显著的性能改进。尽管变压器编码器(Transformer encoder)可以在其结果表示中有效地捕获一般信息,但骨干信息(即输入文本的要点)并没有专门关注。
在本文中,我们提出显式和隐式文本压缩方法来增强Transformer编码,并在几个严重依赖编码的典型下游任务上使用这种方法评估模型。我们的显式文本压缩方法使用专用的模型来压缩文本,而隐式文本压缩方法只是在主模型中添加一个额外的模块来处理文本压缩。
我们提出了三种集成方式,即主干源端融合、目标端融合和双向融合,将主干信息集成到基于transformer的模型中,用于各种下游任务。我们对基准数据集的评估表明,与强基线相比,所提出的显式和隐式文本压缩方法改善了结果。因此,我们得出结论,当将编码与基线模型进行比较时,文本压缩有助于编码器学习更好的语言表示。
论文最前面,先解释一下摘要里面几个专业名词。
一、变压器编码器(transformer encoder):
transformer encoder的结构主要分为四个部分:
(一)position enconding(位置编码):
由于transformer模型没有循环神经网络(RNN)的迭代操作,所以我们必须提供每个字的位置信息给transformer模型,才能识别出语言中的顺序关系。我们需要定义一个位置嵌入的概念,也就是position encoding(位置编码),位置嵌入的维度为[max_sequence_length,embedding_dimension],嵌入的维度同词向量的维度。max_sequence_length属于超参数,指的是限定的最大单个句子长度。
参考博文:position enconding(位置编码)介绍
(二)self attention mechanism(自注意力机制):
Attention机制的本质来自于人类视觉注意力机制。人们视觉在感知东西的时候一般不会是一个场景从到头看到尾每次全部都看,而往往是根据需求观察注意特定的一部分。而且当人们发现一个场景经常在某部分出现自己想观察的东西时,人们会进行学习在将来再出现类似场景时把注意力放到该部分上。
NLP中常用Attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射,如下图。
(三)layer normalization(层标准化)和残差连接
我们在上一步得到了经过注意力矩阵加权之后的V,也就是Attention(Q,K,V),我们对它进行一下转置,和句子X的维度【batch_size,sequence_length】(batch_size指不同的句子,sequence_length指句子长度)然后把他们加起来做残差连接,直接进行元素相加,因为他们的维度一致:在之后的运算里,每经过一个模块的运算,都要把运算之前的值和运算之后的值相加,从而得到残差连接。
Layer Normalization的作用是把神经网络中隐藏层归一化为标准正太分布,也就是独立同分布,以起到加快训练速度,加速收敛的作用。
(四)Feed Forward(前向传播)
用两层线性映射并用激活函数激活
Transfromer模型总结:
之前的循环神经网络(RNN)结构包含了序列的时序信息,而Transformer模型却完全把时序信息给丢掉了。为了解决时序的问题,Transformer的作者用了一个绝妙的办法,这就是在前文提到的位置编码(Positional Encoding)。
二、下游任务:下游任务就是该领域称之为利用预先训练的模型或组件的监督学习任务
文本编码在自然语言处理中起着重要的作用,特别是在自然语言理解中。到目前为止,这些现有的作品大多只从语言符号分布的角度来考虑文本编码。也就是说,这些作品要么使用标记(单词/子单词/字符)嵌入,要么使用基于统计共现的句子级编码器。但是人类对语言的一些明确的理解经验却很少被考虑到以丰富由此产生的表现。
怎么理解这句话呢,我引用论文中的例子来说明。
“Both the US authorities and the Mexican security forces are engaged in an ongoing battle against the drug cartels.”
作者认为这样的主干信息对于文本编码是有帮助的,它之前没有被变压器编码器充分利用。换句话说,在Transformer编码器生成的自注意标记级表示中经常存在冗余,因为语义上占主导地位的单词经常被视为等同于语义上不那么重要的标记。在本文中,这种获取文本主干信息的过程称为文本压缩。作者提出利用显式文本压缩(ETC)方法(文本摘要)和一种新的隐式文本压缩(ITC)方法来增强基于转换器的模型的文本编码与主干信息。
作者首先构建三种文本压缩设置,包括监督、无监督和半监督,以适应各种场景的需求。然后,提出三种骨干网融合方法(BEF、BDF和BBF),将骨干网特征集成到变压器编码器中,提高文本编码质量。
对WMT14中广泛使用的英语-德语和英语-法语翻译任务进行了实证研究。 SQuAD 2.0和RACE阅读理解任务表明,所提出的方法提高了几个NLP任务的性能,超过了强大的甚至是最先进的基线。
研究结果发现,深度学习模型可能并不真正理解自然语言。深度学习模型关注的是不重要的词,而忽略了重要的词,这表明现有的自然语言识别模型在上下文语义表达和学习方面存在不足。自然语言理解任务需要对自然语言的全面理解和做进一步推理和推理的能力。自然语言识别研究的一个共同趋势是,使用堆叠注意力机制的模型变得越来越复杂,或者从大量数据中进行训练,导致计算成本的爆炸性增长。
作者提出为了区分单词在句子或段落中的重要性,为了挖掘出源表示中最突出的部分并强调这些部分,我们使用了文本摘要,并在本文中将此任务称为ETC。一般来说,文本摘要是一种典型的序列生成任务,目的是在一个相对较短的序列上最大限度地吸收和长期保留大量数据,以便文本理解。
显式文本压缩可以通过典型的序列到序列模型进行。编码器将输入句子x表示为向量序列,自回归解码器利用注意机制学习上下文向量,生成包含输入序列关键含义的文本压缩序列Xc。最近,Vaswani等人提出了完全依赖自注意网络的新的Transformer架构[16],在几种语言对的翻译中表现出了最先进的性能。我们试图将Transformer体系结构应用于这样的压缩任务。
多任务联合学习(Multi-Task Joint Learning, MTL)是机器学习中非常流行的一种学习范式,旨在利用多个相关任务中包含的有用信息来提高所有任务的泛化性能。由于下游任务和文本压缩都可以从联合执行中受益,所以将显式文本压缩模型与下游模型联合训练即显式文本压缩是非常直观的。在显式文本压缩中,解码器中Transformer输出向量作为压缩文本特征直接输入到下游模型,而不是重新编码已解码的压缩文本序列。
在显式文本压缩中,与长度标记输入不同,为了引出我们的显式文本压缩模型输出一个具有期望长度的压缩序列,我们在生成过程中使用定向搜索来找到序列xc,该序列在给定一个训练好的显式文本压缩模型的情况下,使评分函数s(xc, x)最大化。引入长度规范化是为了说明我们必须比较不同长度的假设这一事实。如果没有某种长度归一化,定向搜索一般会倾向于较短的序列而不是较长的序列,因为每一步都添加一个负的对数概率,对较长的句子产生较低(更负)的分数。此外,根据注意权值,增加覆盖惩罚,有利于尽可能覆盖源句含义的序列。
在显式文本压缩中,为了实现小批训练的可行性,对最大压缩长度进行解码,然后根据各自的期望长度进行掩码,以确保正确控制压缩率。
隐式文本压缩(Implicit Text Compression, ITC)是一种允许文本压缩与下游任务联合训练的方法。显式文本压缩的文本压缩模型产生的错误是不可区分的,因为这些模型传递的是硬文本序列,而不是软表示,虽然显式文本压缩的梯度是可微的,但在自回归解码过程中,该方法的文本压缩模型的编码器和编码器-解码器不会更新。
解码的从左到右顺序译码方法意味着隐藏状态必须逐个生成,不能并行化,这意味着时间成本是另一个需要考虑的问题。为了解决这个问题,隐式文本压缩使用了一个非自回归解码器,它允许将文本压缩完全集成到下游模型中,并形成一个完全可微分的梯度。与自回归译码相比,非自回归译码不仅可以消除不可微分运算,从而使整个模型同时得到优化,但与自回归解码的O(n)相比,它具有极好的解码时间复杂度O(1),大大加快了完整模型的联合训练和推理。
在这里解释一下什么是自回归模型和非自回归模型:
目前主流的神经机器翻译模型为自回归模型,每一步的译文单词的生成都依赖于之前的翻译结果,因此模型只能逐词生成译文,翻译速度较慢。Gu等人提出的非自回归神经机器翻译模型(NAT)对目标词的生成进行独立的建模,因此能够并行解码出整句译文,显著地提升了模型的翻译速度。然而,非自回归模型在翻译质量上与自回归模型有较大差距,主要表现为模型在长句上的翻译效果较差,译文中包含较多的重复词和漏译错误等。
非自回归(Non-autoregressive,NAR)模型并行生成序列的所有标记,与自回归(AR)模型相比,生成速度更快,但代价是准确性较低。在神经机器翻译(neural machine translation,NMT)、自动语音识别(automatic speech recognition,ASR)和语音合成(TTS)等不同的任务中,人们提出了包括知识提取和源-目标对齐在内的不同技术来弥补AR和NAR模型之间的差距。在这些技术的帮助下,NAR模型可以在某些任务中赶上AR模型的准确性,但在其他任务中则不能。
我们将以上这种方法命名为隐式文本压缩联合。有了这种新颖的方法,我们不再依赖于生成压缩文本序列(这对于显式文本压缩来说是必需的,因为后续标记的生成依赖于前一个标记)。
作者在图中展示了隐式文本压缩模块的体系结构。隐式文本压缩模块由三个主要组件组成:1.一个产出预测器、2.一个非自回归转换器(NAT)解码器和3.一个可选的文本压缩预测器。与非自回归机器翻译模型不同,作者提出的隐式文本压缩模块中的产出预测器没有用于解决不同语言中的多模态问题。
**设计产出预测器的目的是预测句子中单词的重复次数,即产出能力。然后,一个非自回归转换器NAT解码器使用这个预测将每个编码器输入复制为一个解码器输入零次或多次。**我们的产出预测器是用来预测一个单词出现在目标序列中的概率,而不是像典型的产出预测器那样预测副本的数量。因此,我们采用一个具有sigmoid函数的单层神经网络来代替softmax分类器。
由于文本压缩比机器翻译简单,所以压缩文本的顺序不会有太大的变化。在文本压缩过程中,该模型会提取句子的主干,并将其改写成更短的句子。
作者提出的隐式文本压缩与原始的隐式文本压缩解码器实现不同,它掩盖了每个查询位置,防止它关注自身。此外,由于压缩文本的词序变化不大,因此不包含附加的位置注意机制。
为了满足下游模型的多样化需求,基于骨干信息的融合位置,我们提出了三种新的压缩文本集成方法:骨干编码侧融合(BEF)、骨干译码侧融合(BDF)和骨干两侧融合(BBF)。
在BEF中,主干序列(在ETC管道中)或隐藏状态(在ETC Joint和ITC Joint中)与编码器侧的原始Transformer表示集成在一起。上图显示了带有ETC管道的变压器NMT模型上的BEF。在ETC Pipeline中,给定一个输入序列x={x1,···,xJ},由所提出的ETC模型生成一个额外的长度为K的压缩序列xc={xc1,···,xcK}。该压缩序列也被输入到共享词汇表中单词向量vc ={vc1,···,vcK}的原始编码器共享的SAN中,以学习压缩序列的最终表示Hc={Hc1,···,HcK}。在ETC Joint和ITC Joint中,文本压缩解码器中的隐藏状态直接作为压缩序列的最终表示Hc。我们引入了一个额外的多头注意层来融合压缩表示和原始Transformer编码,以学习更有效的表示。
BEF适用于编码器-解码器和编码器-分类器下游模型;然而,由于编码器-解码器范式使用交叉注意(编码器-解码器间注意)来选择编码器表示(即源表示),作者提出了一种额外的集成方法。在这种方法中,被压缩的表示被视为一个新的独立的源表示,解码器将分别处理这两个表示。我们称之为BDF。我们在图中给出了带变压器神经网络机器翻译(NMT)模型和显式文本压缩(ETC)管道的BDF。
在BDF中,原始的Transformer编码和压缩表示分别表示为Hx和Hc。然后,我们使用元组(Hx, Hc)代替编码端融合表示H0x作为解码器的输入。
正如在BEF和BDF中所讨论的,编码器-解码器范式中的压缩表示既可以用于改进源端编码,又可以为解码器提供额外的表示,因此可以通过结合这两种方法来获得一个新的BBF。
在BBF中,原始表示Hx和文本压缩辅助表示H0x都被输入到解码器。类似地,我们在解码器中引入一个额外的编码器-解码器间注意模块,以学习当前时间步长i处的文本压缩辅助上下文b0i。
然后,利用BBF中的上下文门gi(与BDF一致)来合并两个上下文ci和b0i。
作者将本文提出的文本压缩模型与其他文本压缩模型在不同设置下进行了比较。
上表显示了句子级的结果。我们观察到,所提出的无监督ETC模型比Fevry和Phang的无监督方法表现得更好。所提出的有监督的ETC模型也大大优于基于rnn的Seq2seq和Nallapati等人的基线方法;也就是说,与基于rnn的Seq2seq相比,我们的监督模型在R-1、R-2和R-L分数上给出了+2.0的改进。这意味着提出的基于变形器的方法可以生成高质量的压缩句子。
上表总结了基于CNN/DM数据集的段落级文本压缩模型的结果。首先,我们的无监督段落级ETC模型在句子级的表现不如Lead-3,这表明段落级文本压缩任务比句子级文本压缩任务更复杂。第二,我们的有监督段落级显式文本压缩模型的表现优于中报道的TransformerABS,说明可以在下游任务目标训练中带来一定的绩效提升,这与工作的结论一致。第三,在半监督的情况下,模型比基础BART稍微好一点,证明了我们提出的无监督的ETC前训练的有效性。第四,对比无监督和有监督的结果,我们的无监督系统优于一些有监督系统,如PTGEN和PTGEN + COV。这主要是因为无监督模型是基于Transformer结构和初始化与BART的预训练参数,而这些监督系统是建立在RNN结构上。这说明Transformer的特征提取能力强于RNN,并且BART预处理训练对于序列到序列(sequence to-sequence, seq2seq)的生成是非常有效的。这与句子级压缩的结果一致。在段落级,特别是在半监督设置中,当目标是一个压缩序列时,由于自回归解码,显式文本压缩相对于隐式文本压缩的优势更加明显。
该论文提出了显式和隐式文本压缩方法来改进变压器编码器的表示。根据文本压缩训练是否需要人工标注数据,文本压缩可以在三种设置下进行训练:监督、无监督和半监督。一般下游模型大致可以分为两类:编码器-解码器和编码器-分类器。对于下游模型,我们提出了不同的方法来集成压缩文本,并将其表示与原始的Transformer融合:骨干编码侧融合(BEF)、骨干译码侧融合(BDF)和骨干两侧融合(BBF)。目的是利用文本的主干知识在语言表示学习中生成更准确的特征统计分布。为了证明本文提出的文本压缩增强在自然语言处理任务中具有一般性的作用,作者评估了本文提出的方法在两个主要的自然语言处理任务(机器翻译和机器阅读理解)和一个用于自然语言理解评估的额外自然语言推理任务中的影响。实验结果表明,与旗舰数据集和基准排行榜上的强基线相比,作者提出的模型可以显著改善这些具有挑战性的任务。
作者的方法旨在将压缩模型(文本序列或特征向量)集成到普通Transformer的编码中,以改进结果表示。作者将文本压缩分为两种类型,显式文本压缩(ETC)和隐式文本压缩(ITC),它们分别表示压缩序列在传递给下游模型之前是显式生成的,还是由下游模型的一部分作为特征向量隐式生成的。在图1中,我们展示了我们的方法的概述以及显式文本压缩ETC和隐式文本压缩ITC的总体架构。在我们的框架中,有两个模型/模块:压缩模型(ETC/ITC)和下游任务模型。
对于ETC,由于压缩是由外部模型处理的,所以我们有两种选择:使用管道方式,即在训练下游模型(ETC pipeline)之前先训练文本压缩模型,或者联合训练文本压缩模型和下游任务模型(ETC Joint)。对于ITC,由于压缩特性是直接由下游任务模型内部的模块生成的,所以以文本压缩为目标联合训练下游任务模型是唯一的解决方案。因此,我们称这种方法为ITC联合。因此,我们有三种文本压缩辅助的模型训练方式:ETC Pipeline、ETC Joint和ITC Joint。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。