赞
踩
“NeurIPS” (Yang 等, 2019, p. 1) (pdf) :
A类会议
基于置换的自回归模型,什么叫基于置换的自回归模型??
xlnet:代码已经从头到尾看了一遍,太难了,根本没看懂!!
置换语言模型:这里面是怎么置换的??
two-stream self-attention:
目标感知表示的双流自注意力。
提出目标感知的表示是因为??为什么要目标感知的表示??
然后如何构造目标感知的表示?
在一些可能的方法中,作者提出站在目标位置,依赖目标位置通过注意力去聚合来自上下文的信息。然而,这种机制要想工作,存在两点与标准transformer构架相互矛盾的地方:
(1) 为了预测目标位置的token,表示中应该仅仅利用该token的位置信息,而不用内容信息;(2) 为了预测其他token(位置在t之后的),表示应该编码t的内容信息来提供全面的上下文信息。为了解决这种矛盾,作者于是提出使用两套隐藏表示而不是一套:
hθ:表示文本表示;跟标准的transformer隐藏层表示类似,编码上下文和xt。
gθ:表示查询表示;只有上下文信息和t处的位置信息,没有t处的内容。
初始化的时候:第一层查询流用一个可以训练的向量初始化;同时,内容流设置为对应的词嵌入。 两个注意力流使用共享参数更新。文本表示的更新规则与标准的transformer一样;
用最后一层的查询表示来计算Eq。
注意力更新:
融合来自transformer-XL的思想:
集成了transformer-XL中的两个重要技术:相对位置编码、片段复现
相对位置编码:就是transformer-XL中常见的;
片段复现:
多分段建模:
主要采用了相对片段编码和缓存复用??但是这个相对片段编码我没有看懂。
看了源码,连源码和论文一起我都没有看懂。
XLNet:用于语言理解的广义自回归预训练
在建模双向上下文的能力上,基于去噪自编码的模型如BERT比基于自回归语言模型的预训练方法取得了更好的表现。然而,依靠掩码破坏输入,BERT忽视了掩码掉的位置之间的依赖并且遭受预训练和微调不一致的困扰。考虑到这些利弊,我们提出了XLNet,一种广义自回归预训练方法,(1)通过最大化在所有分解顺序的所有排序上的期望似然来学习双向上下文;(2)由于其自回归的形式,克服了BERT的限制。更进一步地,XLnet将transformerXL中的想法整合到预训练中。在实验表现上,XLNet在包括问答、自然语言推理、情绪分析和文档排序等20多个任务上超越了BERT,且往往改进较多。
自回归语言模型和自编码是两种最成功的预训练方法。
自回归语言模型利用一个回归模型去估计文本语料的概率分布。由于该类模型仅仅训练用于编码单向上下文,对于深层双向上下文的建模效果不佳。而与之相反,下游语言理解任务经常需要双向上下文信息。这造成了AR语言建模和有效预训练之间的差距。
与之相反,基于AE的预训练不进行显式的密度估计而是从破坏的输入中重构原始数据。BERT就是一个显著的例子。BERT能够利用双向上下文进行重构。作为一个立竿见影的好处,这关闭了上述AR语言建模中的双向信息鸿沟,导致性能的提高。然而,BERT在预训练中使用的人为符号如[mask]在微调时的真实数据中是缺失的。而且,在输入中要预测的token被掩码了导致BERT不能够像AR语言模型一样利用product rule建模联合概率。换句话说,BERT假设给定没有屏蔽的token,要预测的token彼此间是独立的。因为高阶、长距离依赖在自然语言中的普遍性,这被过度简化了。
面对现有语言预训练目标的优点和缺点,在这篇论文中,我们提出了XLNet,一个广式自回归方法利用AR 语言建模和AE的优点同时避免他们的不足。
首先,XLNet不像传统AR模型那样使用固定的前向或后向因子分解顺序,而是最大化序列的期望对数似然w . r . t .所有可能的因子分解顺序的排列。??没看懂
得益于置换操作,每个位置的上下文可以由来自左边和右边的令牌组成。在预期中,每个位置学习利用来自所有位置的上下文信息,即捕获双向上下文。
其次,XLNet作为一种广义的AR语言模型,不依赖于数据的损坏。因此,XLNet不受BERT所受预训练-微调整差异的影响。同时,自回归目标也提供了一种自然的方式,利用乘积规则对预测令牌的联合概率进行分解,从而消除了BERT中的独立性假设。
除了一个新的预训练目标,XLNet改进了用于预训练的架构设计。
XLNet将Transformer - XL的片段递归机制和相对编码方案集成到预训练中。特别是对于文本序列较长的任务,该方法在经验上提高了性能。
将Transformer ( - XL )架构自然地应用于基于置换的语言建模是行不通的,因为分解顺序是任意的,目标是模糊的。作为解决方案,我们提出对Transformer ( - XL )网络进行重新参数化以消除歧义。
2.1 背景:回顾和比较了用于语言预训练的传统的AR语言建模和BERT。
2.2 排列语言模型:依赖transformers中合适的注意力掩码获取因式分解的置换。没看懂??
2.3 结构:目标感知表征的双流自注意力。
(再看一遍,还是搞不懂这篇论文。)
20240622:
依靠transformers中合适的注意力掩码实现因子分解顺序的置换。
如何实现置换??我也没看懂啊!!
双流自注意力:
内容流注意力(与标准自注意力一样);
查询流注意力:
hθ:内容表示
gθ:查询表示
这篇论文太难了,我看了好多天,最好还是没有看明白,好在看了网友写的博客后总算是明白了不少,下面是我参考的写得比较好的博客:
https://mathor.blog.csdn.net/article/details/108846515
天呐,感谢博主,竟然看懂了,555~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。