赞
踩
由于受限的特征子空间,单头注意力块的建模能力很粗糙。为了解决这个问题,如图 3 所示,Vaswani 等人。提出了一种多头自注意力机制(MHSA),将输入线性投影到多个特征子空间中,并由多个独立的注意力头(层)并行处理。结果向量被连接并映射到最终输出。 MHSA的过程可以表述为
与卷积的稀疏连接类似,multihead attention 用 dmodel/h 维向量将输入分离成 h 个独立的注意力头,并并行整合每个头特征。在没有额外计算成本的情况下,多头注意力丰富了特征子空间的多样性。
然后将 MHSA 的输出馈送到两个连续的前馈网络 (FFN),其中的 ReLU 激活为
这个按位置的前馈层可以看作是一个逐点卷积,它平等地对待每个位置,但在每一层之间使用不同的参数。
由于 Transformer/Attention 对输入嵌入的操作同时且相同,因此忽略了序列的顺序。为了利用顺序信息,一种常见的解决方案是在输入中附加一个额外的位置向量,因此称为“位置编码”。位置编码有很多选择。例如,一个典型的选择是不同频率的正弦和余弦函数
图 4 显示了 Transformer 模型的整体编解码器架构。具体来说,Transformer 由 N = 6 个连续的编码器块组成,每个编码器块由两个子层组成。 MHSA 层聚合编码器嵌入中的关系。一个按位置的 FFN 层提取特征表示。对于解码器,它还涉及编码器堆栈之后的六个连续块。与编码器相比,每个解码器块都附加到一个多头交叉注意力层以聚合编码器的解码器嵌入和输出,其中 Y 对应于前者,X 是后者,如等式(1)所示。此外,编码器和解码器中的所有子层都采用残差连接[11]和层归一化[92]来增强 Transformer 的可扩展性。为了记录顺序信息,每个输入嵌入都在编码器和解码器堆栈的开头附加了位置编码。最后,线性层和softmax操作用于下一个单词预测。
受 Transformer 在 NLP [2]-[5]、[8] 中的突出发展的启发,一些研究人员试图将 Transformer 引入图像分类中。与传统 CNN 相比,Vision Transformer (ViT) [27] 首先在主流分类基准上取得了相似甚至更优的性能。本节全面回顾了 2021 年 6 月之前发布的 40 多个 Transformer 主干,并根据其动机和实现将它们分为六类,如图 5 所示。基于我们的分类,我们首先介绍 ViT,即用于图像分类的原始视觉转换器。然后我们讨论了 Transformer Enhanced CNN 方法,这些方法利用 Transformer 来增强 CNN 主干的远程依赖性。 Transformers 具有很强的全局建模能力,但在早期忽略了局部信息。因此,CNN Enhanced Transformer 方法利用适当的卷积归纳偏置来增强
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。