赞
踩
Vision transformers已经成为卷积神经网络(CNNs)的可能替代品,在各种计算机视觉应用中很受欢迎。这些变形金刚能够专注于图像中的全局关系,提供了强大的学习能力。然而,它们可能会受到有限的泛化,因为它们不倾向于在图像中建模局部相关性。最近,在视觉变压器中出现了混合卷积运算和自我注意机制,以利用局部和全局图像表示。这些混合视觉变压器,也称为cnn -Transformer结构,在视觉应用中显示出了显著的效果。鉴于混合视觉变压器数量的迅速增长,对这些混合架构进行分类和解释已成为必要。本文介绍了最近视觉变压器体系结构的分类,更具体地说,是混合视觉变压器的分类。此外,还讨论了这些架构的主要特征,如注意机制、位置嵌入、多尺度处理和卷积。与以往主要关注单个视觉变压器架构或cnn的调查论文相比,本调查独特地强调了混合视觉变压器的新兴趋势。通过展示混合视觉变压器在一系列计算机视觉任务中提供卓越性能的潜力,该调查阐明了这种快速发展的架构的未来方向。
数字图像本质上是复杂的,显示高级信息,如物体、场景和模式(Khan等,2021a)。这些信息可以通过计算机视觉算法进行分析和解释,以提取关于图像内容的有意义的见解,如识别对象、跟踪运动、提取特征等。由于计算机视觉在各个领域的应用,它已经成为一个活跃的研究领域(Bhatt et al. 2021)。然而,由于图像的亮度、位姿、背景杂波等的变化,从图像数据中提取高级信息具有挑战性。
卷积神经网络(cnn)的出现给计算机视觉领域带来了革命性的变革。这些网络已成功应用于各种各样的计算机视觉任务(Liu等人,2018;Khan等人,2020年,2022年,2023年;Zahoor et al. 2022),特别是图像识别(Sohail et al. 2021a;Zhang等(2023a),目标检测(Rauf等,2023),分割(Khan等,2021c)。cnn之所以受欢迎,是因为它们能够自动从原始图像中学习特征和模式(Simonyan和Zisserman 2014;Agbo-Ajala和Viriri 2021年)。一般来说,局部模式,即特征图案,是系统地分布在整个图像中。在卷积层中指定了不同的过滤器来捕获不同的特征基序,而CNNs中的池化层用于降维和合并对变化的鲁棒性。这种局部级的cnn处理可能会导致空间相关性的丢失,这可能会影响它们在处理更大、更复杂的模式时的性能。
最近在计算机视觉领域,在Vaswani等人于2017年首次将变压器引入文本处理应用程序(Vaswani et al. 2017a)之后,出现了一些向变压器的转变。2018年,Parmer等人开发了用于图像识别任务的变压器,并展示了出色的结果(Parmar等人,2018年)。从那时起,人们对将变压器应用于各种与视觉相关的应用产生了越来越大的兴趣(Liu et al. 2021b)。在2020年,Dosovitskiy等人推出了一种变压器架构,视觉Transformer(ViT),专门为图像分析而设计,显示了具有竞争力的结果(Dosovitskiy等人,2020)。ViT模型的工作原理是将一个输入图像分割成一定数量的patch,每个patch随后被平展并反馈给一系列的transformer图层。transformer图层使模型能够了解补丁和它们相应的特征之间的关系,从而能够在图像的全局范围内识别特征基序。与具有局部接受域的CNNs不同,ViTs利用其自我关注模块来建模长期关系,这使它们能够捕捉图像的全局视图(Ye et al. 2019;郭等人,2021)。ViTs的全局接受域有助于它们保持全局关系,从而识别分布在整个图像中的复杂视觉模式(Bi等,2021年;Wu等人。2023b)。在此背景下,Maurício等人报道了vit在各种应用中可能比cnn显示出有前景的结果(Zhang et al. 2021a;Maurício等。2023)。
图1:多自我注意(MSA)机制和卷积运算的描述。MSA倾向于捕获全局关系,而卷积操作具有一个局部接受域来对图像中的像素邻域信息建模。
除了它们的设计和捕捉视觉模式的方式不同之外(如图1所示),cnn和vit的归纳偏差也不同。cnn严重依赖于相邻像素之间的相关性,而vit假定最小的先验知识,这使得它们严重依赖于大型数据集(Han et al. 2023)。而ViT模型在目标识别、分类、语义分割等计算机视觉任务中取得了优异的成绩(Kirillov et al. 2023;Dehghani等人,2023年),它们并不是一个放之四海而皆通的解决方案。在训练数据较小的情况下,尽管vit的学习能力较大,但与cnn相比,可能表现出有限的性能(Morra et al. 2020;Jamali等,2023)。此外,它们的大接收域需要更多的计算量。因此,引入混合视觉Transformers(HVT)的概念,即CNN-Transformer,将CNNs和ViTs的功率结合起来(Maaz et al. 2023)。这些混合模型利用了CNNs的卷积层来捕捉局部特征,然后将这些局部特征输入到ViTs中,使用self - attention机制获得全局上下文。HVTs在许多图像识别任务中表现出了更好的性能。
最近,人们进行了不同的调查,讨论了变压器最近的架构和实施进展(Liu et al. 2021b;Du等人,2022年;伊斯兰教2022;Aleissaee等人,2022年;Ulhaq等人,2022年;Shamshad等人,2023)。这些调查文章中的大多数要么关注特定的计算机视觉应用程序,要么深入讨论专门为自然语言处理(NLP)应用程序开发的变压器模型。相反,本调查报告强调了结合了CNNs和变压器概念的HVTs (CNN-Transformer)的最新发展。它提供了一种分类法,并探讨了这些混合模型的各种应用。此外,本文还提出了一般vit的分类,并旨在根据其核心架构设计对新兴的方法进行彻底的分类。
本文首先介绍了ViT网络的基本组件,然后讨论了各种最新的ViT架构。报告的ViT模型根据其独特的特征大致分为六类。此外,还包括了关于hvt的详细讨论,突出了他们对利用卷积操作和多注意力机制的优势的关注。综述了近年来hvt在各种计算机视觉任务中的体系结构和应用。此外,还提出了hvt的分类方法,根据这些体系结构结合卷积操作和自我注意机制的方式对其进行分类。该分类法将hvt分为七大类,每一类都反映了利用卷积和多注意操作的不同方式。表1列出了常用的缩略语。
图3说明了变压器的基本结构布局。首先,将输入图像进行分割、平化,并转换为低维线性嵌入,即Patch embeddings。然后将位置嵌入和类tokens附加到这些嵌入中,并将它们送入转换器的编码器块中,以生成类标签。该编码块除MSA层外,还包含前馈神经网络(FFN)、归一化层和残留连接。最后,最后一个头(MLP层,或解码器块)预测最终输出。下面的小节将详细讨论这些组件。
图3:ViT的详细架构。首先将输入图像分割成小块,然后将其线性变换后的嵌入信息与位置信息相结合,并通过多个编码器/解码器块进行下游任务的处理。
补丁嵌入是ViT体系结构中的一个重要概念。它涉及到将图像补丁转换为向量表示,这使得ViT能够使用基于转换的方法将图像处理为tokens序列(Dosovitskiy et al. 2020)。将输入图像分割成固定大小的非重叠部分,将其平铺成一维向量,并利用含有嵌入维数的线性层将其投影到高维特征空间(如式1所示)。这使得它能够在涉及图像的任务中获得有希望的结果。
vit利用位置编码将位置信息添加到输入序列中,并将其保留在整个网络中。补丁之间的顺序信息是通过位置嵌入捕获的,它被合并到patch嵌入中。自vit发展以来,人们提出了许多用于学习顺序数据的位置嵌入技术(Jiang et al. 2022)。这些技术分为三类:
通过在编码器块之前使用APE,将位置嵌入集成到patch嵌入中。
相对位置嵌入(RPE)技术主要用于将与相对位置相关的信息纳入注意模块(Wu et al. 2021b)。这种技术基于斑块之间的空间关系比它们的绝对位置更有分量的思想。要计算RPE值,需要使用一个基于可学习参数的查找表。查找过程由补丁之间的相对距离决定。尽管RPE技术可扩展到不同长度的序列,但它可能会增加训练和测试时间(Chu等人,2021b)。
卷积位置嵌入(CPE)方法考虑了输入序列的2D特性。二维卷积利用零填充来收集位置信息,以利用二维特性(Islam et al. 2021)。卷积位置嵌入(CPE)可用于整合ViT不同阶段的位置数据。CPE可以专门引入到自我注意模块(Wu et al. 2021a)、前馈网络(FFN) (Li et al. 2021c;Wang等人2021b),或者在两个编码器层之间(Chu等人2021a)。
ViT体系结构的核心组件是自注意机制,它在显式表示序列中实体之间的关系方面起着至关重要的作用。它通过表示每个实体的全局上下文信息并捕捉它们之间的交互来计算一个项目对其他项目的重要性(Vaswani et al. 2017b)。自注意模块将输入序列转换为三个不同的嵌入空间,即查询、键和值。具有查询向量的键值对集被作为输入。输出向量是通过对这些值进行加权和,然后使用softmax运算符来计算的,其中加权由一个评分函数来计算(公式3)。
单头自我注意模块的能力有限,往往导致它只关注少数几个位置,可能会忽略其他重要的位置。为了解决这个限制,使用了MSA。MSA利用自注意块的平行叠加来增加自注意层的有效性(Vaswani et al. 2017b)。它通过向注意层分配各种表示子空间(查询、键和值)来捕获序列元素之间各种复杂的交互。MSA构成多个自我注意块。每一个都配备了用于查询、键和值子空间的可学习权矩阵。然后,这些块的输出被连接起来,并使用可学习参数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。