赞
踩
链接:https://www.zhihu.com/question/349958732/answer/2255096679
本教程来自复旦大学邱锡鹏教授报告《A Tutorial of Transformers》https://www.bilibili.com/video/BV1sU4y1G7CN
Vaswani, Ashish, et al. "Attention is All you Need." NIPS. 2017 :
Tianyang Lin, Yuxin Wang, Xiangyang Liu, Xipeng Qiu, A Survey of Transformers, https://arxiv.org/abs/2106.04554
举一个具体的例子:序列到序列(Sequence-to-Sequence, Seq2Seq)的代表任务--翻译模型,通常采用如下图所示的结构:
在语言模型中应用注意力机制
Query-Key-Value (QKV) 模型
多头自注意力(MHSA)
与其他神经网络模型复杂度对比
与其他模型结构上的对比
CNN:局部连接与参数共享(平移不变性)
RNN:时间维上共享参数;依赖Markov结构(常见为一阶马尔科夫)
Transformer:无结构先验信息(小数据集上容易过拟合);排序不变性,为了建模语句中词语出现的先后顺序,需要引入位置编码。
Transformer与图神经网络:Transformer:可看成是一个全连接的有向图网络(带有自身节点的连接);并且连接关系完全由数据驱动给出。
因Transformer强大的性能,它被用于许多任务上。并且在改进模型结构,提升计算效率方面有一些工作,这些内容包括在以下三个方面:
本教程中,分别对变种模型按照其改进方法分为以下几类:
Qipeng Guo, Xipeng Qiu, Pengfei Liu, Yunfan Shao, Xiangyang Xue, Zheng Zhang. Star-Transformer, NAACL 2019, https://arxiv.org/pdf/1902.09113.pdf
Reformer (Kitaev et al., ICLR 2020) 中使用的是局部敏感哈希LSH
,对token进行分类排序,然后在同类内进行前向attend,如下图所示:Reformer (Kitaev et al., ICLR 2020) 中使用的是局部敏感哈希LSH
,对token进行分类排序,然后在同类内进行前向attend,如下图所示:此处以Performer
模型为例,此处将原始softmax后的自注意力矩阵,看成是经过kernel trick计算出的内积,并且人工构造出基函数将其拆分开。
K(x,y)=E[ϕ(x)⊤ϕ(y)]\mathrm{K}(\mathbf{x}, \mathbf{y})=\mathbb{E}\left[\phi(\mathbf{x})^{\top} \phi(\mathbf{y})\right]\\, 下图的LL为上文中的序列长度TT > Choromanski K, Likhosherstov V, Dohan D, et al. Rethinking attention with performers. arXiv preprint arXiv:2009.14794, 2020 $$
对查询向量聚类,选取一些具有代表性的值计算自注意力,对于没有计算到得了查询-键对复用代表性的注意力值或使用均匀分布,如下图。
Informer
中的基本假设是:如果某些query产生了均匀分布的自注意力,则对这些query计算注意力是冗余的。(可以结合图模型进行理解,均匀的注意力意思是当前节点的值要替换为所有节点的平均值,这种替换会掩盖掉原始数据特征,不利于模型训练)Informer
中计算注意力矩阵某行最大值与平均值的差距,用来衡量这行注意力是否为冗余的M¯(qi,K)=maxj{qikj⊤d}−1LK∑j=1LKqikj⊤d\bar{M}\left(\mathbf{q}_{i}, \mathbf{K}\right)=\max _{j}\left\{\frac{\mathbf{q}_{i} \mathbf{k}_{j}^{\top}}{\sqrt{d}}\right\}-\frac{1}{L_{K}} \sum_{j=1}^{L_{K}} \frac{\mathbf{q}_{i} \mathbf{k}_{j}^{\top}}{\sqrt{d}}与上一点相对应的是选取代表性key(压缩key的数量)的方法,代表模型为
模型举例: 以Memory Compressed Attention (MCA) 为例
Peter J. Liu, Mohammad Saleh, Etienne Pot, Ben Goodrich, Ryan Sepassi, Lukasz Kaiser, and Noam Shazeer. Generating Wikipedia by SummarizingLong Sequences, ICLR 2018
使用带步长的卷积压缩K,V\bf K,V的长度。
Qipeng Guo, Xipeng Qiu, Xiangyang Xue, Zheng Zhang. Low-Rank and Locality Constrained Self-Attention for Sequence Modeling, IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019,12. https://ieeexplore.ieee.org/document/8894858
模型举例:Multi-scale Transformer,
在Transformer模型的自注意力部分,只关注了数据的内容信息,没有关注数据中的位置、顺序信息。例如,一句话中词语交换位置,句子含义可能发生显著变化,为了引入token的位置信息,在原始的模型中,使用的是人工设计、根据位置计算出的正余弦编码。下面介绍关于位置编码的改进相关工作。
模型举例:Transformer-XL 相对位置编码,在原有q,k\boldsymbol{q,k}计算注意力的基础上,引入相对位置编码Ri−j\boldsymbol{R}_{i-j}并且添加一些参数矩阵W\boldsymbol{W}
Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc Le, and Ruslan Salakhutdinov. Transformer- XL: Attentive Language Models beyond a Fixed-Length Context. ACL 2019
模型举例:Roformer 对query和key乘以旋转位置编码,使得模型编码绝对位置信息,但具有平移不变性
Jianlin Su, Yu Lu, Shengfeng Pan, Bo Wen, and Yunfeng Liu. RoFormer: Enhanced Transformer with Rotary Position Embedding. 2021. arXiv:2104.09864
模型举例:ReZero-Transformer 在残差连接中添加一个0初始化参数α\alpha,可加快模型收敛速度,能够训练深层模型(128层)
Thomas Bachlechner, Bodhisattwa Prasad Majumder, Huanru Henry Mao, Garrison W. Cottrell, and Julian J. McAuley. ReZero is All You Need: Fast Convergence at Large Depth. 2020
模型举例:Product-key memory使用key, value为参数的模块替换原模型中的FFN
Guillaume Lample, Alexandre Sablayrolles, Marc’Aurelio Ranzato, Ludovic Denoyer, and Hervé Jégou. Large Memory Layers with Product Keys. NeurIPS 2019
Sachin Mehta, Marjan Ghazvininejad, Srinivasan Iyer, Luke Zettlemoyer, and Hannaneh Hajishirzi. 2020. DeLighT: Very Deep and Light-weight Transformer. arXiv:2008.00623
Ankur Bapna, Mia Chen, Orhan Firat, Yuan Cao, and Yonghui Wu. Training Deeper Neural Machine Translation Models with Transparent Attention. EMNLP 2018
模型举例:Universal Transformer 在模块循环迭代时,添加了动态终止条件
此处介绍的模型思路是将长序列分割为多个短序列,进行分别处理,然后基于表示缓存整合信息
代表模型包括
模型举例:Transformer-XL在训练阶段,每个片段分别进行学习,下一个片段的会关注上一个片段的信息;测试阶段注意力路径如下图绿色线所示。通过分片段的学习,可使得Transformer学习非常长的序列表示。
Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc Le, and Ruslan Salakhutdinov. Transformer- XL: Attentive Language Models beyond a Fixed-Length Context. ACL 2019
Compressive Transformer 与Transformer-XL类似,此处是将之前片段的表示压缩到记忆单元中,在进行新的片段表示学习时,直接关注压缩记忆内容,使得模型当前可以关注到更早的片段信息。
Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Chloe Hillier, and Timothy P. Lillicrap. Compressive Transformers for Long-Range Sequence Modelling. ICLR 2020
模型举例:HIBERT
Xingxing Zhang, Furu Wei, and Ming Zhou. HIBERT: Document Level Pre-training of Hierarchical Bidirectional Transformers for Document Summarization. ACL 2019
自注意力+前馈神经网络的结构是最优的吗?此方面代表模型为:
模型举例:Evolved Transformer 搜索出的神经网络结构,在一些任务上性能高于原始模型
Pre-trained Models for Natural Language Processing: A Survey, https://arxiv.org/abs/2003.08271
模型举例:BERT只训练Transformer的编码器,自从BERT出现后,Transformer成为NLP预训练模型的主体结构。BERT基于以下两种自监督学习方式训练:
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. HLT-NAACL 2019
GPT只训练Transformer的解码器,训练基于完成语言建模任务--最大化数据似然
Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. Improving language understanding by generative pre-training. 2018
T5训练完整的Transformer,也是基于预测屏蔽掉输入语句中的词汇
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. 2020. Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. arXiv:1910.10683
Dosovitskiy, Alexey, et al. "An image is worth 16x16 words: Transformers for image recognition at scale." arXiv preprint arXiv:2010.11929 (2020)
Zeng, Mingliang, et al. "MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training." arXiv preprint arXiv:2106.05630 (2021).
Inc.
之前很可能是某组织名字,in
后很可能是时间或地点。对Transformer模型的两点观察:
模型举例:TENER提出带有方向性的位置编码方式
Hang Yan, Bocao Deng, Xiaonan Li, Xipeng Qiu. TENER: Adapting Transformer Encoder for Named Entity Recognition, https://arxiv.org/abs/1911.04474
在视频讲座中还列举了一些Transformer的其他应用:
Make Transformer Great Again!\Large \text{ Make Transformer Great Again!} \\
本教程链接
https://www.bilibili.com/video/BV1sU4y1G7CN?t=12283
本教程slides
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。