当前位置:   article > 正文

Transformer综述(A Survey on Vision Transformer) 阅读学习笔记(四)--高效Transformer、计算机视觉的自注意力、Transformer的总结与展望_a survey on visual transformer

a survey on visual transformer

论文综述:
在这里插入图片描述
文章主旨:在本文中,我们回顾了这些视觉Transformer模型,将它们分为不同的任务,并分析了它们的优缺点。我们探讨的主要类别包括主干网络、高/中级视觉、低级视觉和视频处理。我们还包括有效的Transformer方法,用于将Transformer推进基于设备的实际应用。此外,我们还简要介绍了计算机视觉中的自我注意机制,因为它是Transformer的基本组成部分。在本文的最后,我们讨论了视觉Transformer面临的挑战,并提供了几个进一步的研究方向。

其他章节:
Transformer综述(A Survey on Vision Transformer) 阅读学习笔记(一)----transformer的发展,transformer的基本结构和原理

Transformer综述(A Survey on Vision Transformer) 阅读学习笔记(二)-- transformer在计算机视觉领域的发展和应用)

Transformer综述(A Survey on Vision Transformer) 阅读学习笔记(三)–Transformer应用的图像处理与视频处理的研究

3.6 Efficient Transformer 高效Transformer

虽然Transformer 模型已经在各种任务中取得了成功,但它们对内存和计算资源的高要求阻碍了它们在资源有限的设备(如手机)上的实施。在这一部分中,我们回顾了为有效实施而对压缩和加速变压器模型进行的研究。这包括网络剪枝、低级分解、知识提取、网络量化和紧凑的体系结构设计。表5列出了压缩基于Transformer 的模型的一些代表性工作。

在这里插入图片描述

3.6.1 Pruning and Decomposition 修剪和分解

在基于Transformer的预训练模型(例如,BERT)中,并行执行多个注意操作以独立地对不同令牌之间的关系建模[225]、[50]。但是,特定任务不需要使用所有磁头。例如,Michelet等人[159]提出的经验证据表明,在测试时可以移除很大比例的注意力头部,而不会显著影响表现。所需的磁头数量在不同的层上有所不同-有些层甚至可能只需要一个磁头。在[159]中,考虑到注意头的冗余性,定义了重要度分数来估计每个头对最终输出的影响,并可以删除不重要的头以进行有效的部署。Dalviet等人[175]从两个角度分析了预先训练的变压器模型中的冗余:一般冗余和特定任务冗余。根据彩票假说[67],Prasannaet等人[175]分析了BERT中的彩票,并表明在基于Transformer的模型中也存在良好的子网络,减少FFN层和注意力头以实现高压缩率。对于将一幅图像分割成多个块的视觉Transformer [55],Tanget等[214]提出了减少块计算以加速推理的方法,并通过考虑冗余块对有效输出特征的贡献来自动发现冗余块。朱等人[290]将网络瘦身方法[147]扩展到视觉转换器,以降低FFN和注意模块中的线性投影的维度。

[225]: Attention is all you need.NeurIPS, 30:59986008, 2017.
[50]: Bert: Pre-training of deep bidirectional transformers for language understanding. InNAACL- HLT (1), 2019.
[159]: Are sixteen heads really better than one? InNeurIPS, pages 1401414024, 2019.
[175]: When bert plays the lottery, all tickets are winning.arXiv preprint arXiv:2005.00561, 2020.
[67]: The lottery ticket hypothesis: Finding sparse, trainable neural networks.arXiv preprint arXiv:1803.03635, 2018.
[55]: An image is worth 16x16 words: Transformers for image recognition at scale. InICLR, 2021.
[214]: Patch slimming for efficient vision transformers.arXiv preprint arXiv:2106.02852, 2021.
[290]: Visual transformer pruning. arXiv preprint arXiv:2104.08500, 2021.
[147]: Learning efficient convolutional networks through network slimming. InICCV, pages 27362744, 2017.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

除了Transformer模型的宽度之外,深度(即,层数)也可以减少以加速推理过程[59]。与Transformer模型中不同的关注头可以并行计算的概念不同,不同的层必须按顺序计算,因为下一层的输入取决于前几层的输出。Fanet等人[59]提出了一种分层丢弃策略来规范模型的训练,然后在测试阶段将整个层一起移除。考虑到不同设备中可用的资源可能不同,Houet al.[95]建议自适应地减小预定义Transformer模型的宽度和深度。该方法同时获得多个不同大小的模型,并通过重新布线机制在不同的子网络上共享重要的注意力头部和神经元。

除了在Transformer模型中直接丢弃模块的剪枝方法之外,矩阵分解的目的是基于低秩假设将大矩阵近似为多个小矩阵。例如,Wanget等人[238]分解了变压器模型中的标准矩阵乘法,提高了推理效率。

[59]: Reducing transformer depth on demand with structured dropout.arXiv preprint arXiv:1909.11556, 2019.
[95]: Dynabert: Dynamic bert with adaptive width and depth.NeurIPS, 33, 2020
[238]: Structured pruning of large language models.arXiv preprint arXiv:1910.04732, 2019.
  • 1
  • 2
  • 3

3.6.2 Knowledge Distillation 知识蒸馏

知识蒸馏的目的是通过从大型教师网络[93]、[15]、[2]转移知识来训练学生网络。与教师网络相比,学生网络通常具有更薄、更浅的体系结构,更容易在资源有限的资源上部署。神经网络的输出特性和中间特性也可以用来将有效信息从教师传递给学生。专注于变压器模型,Mukherjeeet等人[162]利用大量未标记的数据,使用预先训练好的Bert[50]作为老师来指导小模型的培训。Wanget等人[231]训练学生网络来模仿预先训练的教师模型中自我注意层的输出。价值之间的点积作为一种新的知识形式被引入来指导学生。在[231]中还引入了教师助理[160],缩小了大型预先训练的变压器模型和紧凑的学生网络之间的差距,从而促进了模仿。由于转换模型中有不同类型的层(即自觉层、嵌入层和预测层),焦立中等[113]设计了不同的目标函数来将知识从教师传递给学生。例如,学生模型嵌入层的输出通过MSE损失来模仿教师的输出。还实施了可学习的线性变换,以将不同的特征映射到同一空间。对于预测层的输出,采用KL-散度来衡量不同模型之间的差异。对于视觉转换器,Jiaet et al.[109]提出了一种细粒度流形提取方法,该方法通过图像与分割块之间的关系来挖掘有效的知识.。

[93]: Distilling the knowledge in a neural network.arXiv preprint arXiv:1503.02531, 2015.
[15]: Model compression. InProceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 535541, 2006.
[2]: Do deep nets really need to be deep?NeurIPS, 27:26542662, 2014.
[162]: Xtremedistil: Multi-stage distillation for massive multilingual models. InProceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 22212234, 2020.
[50]: Bert: Pre-training of deep bidirectional transformers for language understanding. InNAACL- HLT (1), 2019.
[231]: Minilm: Deep self-attention distillation for task-agnostic compression of pretrained transformers.arXiv preprint arXiv:2002.10957, 2020.
[160]:  Improved knowledge distillation via teacher assistant. InProceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 51915198, 2020.
[113]: TinyBERT: Distilling BERT for natural language understanding. InFindings of the Association for Computational Linguistics: EMNLP 2020, pages 41634174, Nov. 2020.
[109]:  Efficient vision transformers via fine-grained manifold distillation.arXivpreprint arXiv:2107.01378, 2021.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

3.6.3 Quantization 量化

量化旨在减少表示网络权重或中间特征所需的比特数[224]、[255]。详细讨论了一般神经网络的量化方法,取得了与原始网络[170]、[68]、[7]相当的性能。最近,人们对如何对变压器模型[12]、[60]进行特殊量化越来越感兴趣。例如,Shridharet al.[199]建议将输入嵌入到二进制高维向量中,然后使用二进制输入表示来训练二进制神经网络。Cheonget al.[40]用低位(例如,4位)表示变压器模型中的权重。研究了各种量化方法,表明K-Means量化具有巨大的发展潜力。针对机器翻译任务,Pratoet al.[176]提出了一种完全量化的转换器,正如论文所称,它是第一个在翻译质量上没有任何损失的8位模型。此外,Liuet al.[150]探索了一种训练后量化方案,以降低视觉转换器的内存存储和计算成本

[224]: Improving the speed of neural networks on cpus. InDeep Learning and Unsupervised Feature Learning Workshop, NIPS 2011, 2011.
[255]: Searching for low-bit weights in quantized neural networks. InNeurIPS, 2020.
[170]: Profit: A novel training method for sub-4-bit mobilenet models. InECCV, pages 430446. Springer, 2020.
[68]: Riptide: Fast end-to-end binarized neural networks.Proceedings of Machine Learning and Systems, 2:379389, 2020.
[7]: Proxquant: Quantized neural networks via proximal operators.arXiv preprint arXiv:1810.00861, 2018.
[12]: Efficient 8-bit quantization of transformer neural machine language translation model.arXiv preprint arXiv:1906.00532, 2019.
[60]: Technical report, Technical report, Stanford University, Stanford, California, 2019.
[199]: End to end binarized neural networks for text classification. InProceedings of SustaiNLP: Workshop on Simple and Efficient Natural Language Processing, pages 2934, 2020.
[40]:  transformers. zip: Compressing transformers with pruning and quantization. Technical report, tech. rep., Stanford University, Stanford, California, 2019.
[176]: Fully quantized transformer for machine translation. InProceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings, pages 114, 2020.
[150]: Post-training quantization for vision transformer.arXiv preprint arXiv:2106.14156, 2021.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

3.6.4 Compact Architecture Design

除了将预定义的变压器模型压缩成更小的模型外,一些工作还试图直接设计紧凑的模型[244],[112]。Jianget al.[112]提出了一个新的模块,称为基于Span的动态卷积,将完全连接的层和卷积层结合起来,从而简化了自我注意的计算,如图15所示。通过卷积运算计算来自不同令牌的表示之间的局部依赖性,这比标准变压器中的密集全连接层要有效得多。深度卷积也用于进一步降低计算成本。[73]中提出了有趣的“汉堡”层,使用矩阵分解来替代原始的自我关注层。与标准的自我注意操作相比,矩阵分解可以更有效地计算,同时清楚地反映不同标记之间的依赖关系。高效变压器架构的设计也可以通过神经架构搜索(NAS)[80],[200]实现自动化,该搜索自动搜索如何组合不同的组件。例如,Suet al.[205]搜索了线性投影的面片大小和尺寸,以及注意模块的头部数量,以获得一个高效的视觉转换器。Liet al.[125]探索了一种自我监督搜索策略,以获得一种由卷积模块和自我注意模块组成的混合架构。

[244]: Lite transformer with long-short range attention.arXiv preprint arXiv:2004.11886, 2020.
[112]: Convbert: Improving bert with span-based dynamic convolution.NeurIPS, 33, 2020.
[73]: Is attention better than matrix decomposition? InICLR, 2020.
[205]: Vision transformer architecture search.arXiv preprint arXiv:2106.13700, 2021
[80]: Nat:Neural architecture transformer for accurate and compact architectures. InNeurIPS, pages 737748, 2019.
[200]: The evolved transformer.arXiv preprint arXiv:1901.11117, 2019.
[205]: Vision transformer architecture search.arXiv preprint arXiv:2106.13700, 2021.
[125]: Bossnas: Exploring hybrid cnn-transformers with block-wisely self- supervised neural architecture search.arXiv preprint arXiv:2103.12424, 2021.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

transformer模型中的自我注意操作计算给定序列中不同输入标记的表示之间的点积(图像识别任务[55]中的补丁),其复杂性为isO(N),其中为序列长度。最近,一个有针对性的焦点是在大型方法中降低复杂性(N),以便变压器模型可以扩展到长序列。例如,Katharopouloset等人[116]将自我注意近似为内核特征映射的线性点积,并通过RNN揭示了标记之间的关系。Zaheeret al.[267]将每个标记视为图中的顶点,并将两个标记之间的内积计算定义为边。受图论[201]、[46]的启发,将各种稀疏图组合起来,以逼近变压器模型中的稠密图,并可实现EO(N)复杂度。从理论角度来看,Y unet al.[265]证明了具有O(N)复杂度的稀疏变换器足以反映令牌之间的任何类型的关系,并且可以进行普适逼近,为进一步研究具有O(N)复杂度的变换器提供了理论保证。

[116]: Transformers are rnns: Fast autoregressive transformers with linear attention. In International Conference on Machine Learning, pages 51565165. PMLR, 2020.
[55]: An image is worth 16x16 words: Transformers for image recognition at scale. InICLR, 2021
[267]: Big bird: Transformers for longer sequences.arXiv preprint arXiv:2007.14062, 2020.
[201]:  Spectral sparsification of graphs.SIAM Journal on Computing, 40(4):9811025, 2011.
[46]: The average distances in random graphs with given expected degrees.Proceedings of the National Academy of Sciences, 99(25):1587915882, 2002.
[265]: connections are expressive enough: Universal ap- proximability of sparse transformers.arXiv preprint arXiv:2006.04862, 2020.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

Discussion.
上述方法在试图识别变压器模型中的冗余时采用了不同的方法(见图16)。剪枝和分解方法通常需要具有冗余的预定义模型。具体来说,剪枝侧重于减少变压器模型中组件(例如,层、头)的数量,而分解表示具有多个小矩阵的原始矩阵。紧凑型模型也可以直接手动(需要足够的专业知识)或自动(例如通过NAS)设计。为了在资源有限的设备上高效部署,可以通过量化方法进一步用低位表示所获得的紧凑模型。

4. SELF-ATTENTION FORCOMPUTERVISION 计算机视觉的自我关注

前面几节回顾了使用transformer体系结构进行视觉任务的方法。我们可以得出结论,自我注意在变压器中起着关键作用。自我注意模块也可以被视为CNN体系结构的一个组成部分,CNN体系结构对于大的感受野具有低伸缩性。这个构建块被广泛用于网络之上,以捕获远程交互,并增强视觉任务的高级语义特征。在本节中,我们将深入探讨基于自我注意的模型,这些模型是为计算机视觉中的挑战性任务而设计的。这些任务包括语义分割、实例分割、对象检测、关键点检测和深度估计。在这里,我们简要总结了现有的应用自我注意的计算机视觉。

Image Classification 图像分类
用于分类的可训练注意包括两个主流:关于图像区域使用的硬注意[3]、[161]、[250]和生成非刚性特征映射的软注意[227]、[108]、[82]、[184]。Baet al.[3]首先提出了图像分类任务的术语“视觉注意”,并使用注意来选择输入图像中的相关区域和位置。这还可以降低所提出模型关于输入图像大小的计算复杂度。对于医学图像分类,AG-CNN[76]提出通过注意热图从全局图像中裁剪一个子区域。SENet[99]提出使用软性自我注意重新加权卷积特征的通道响应,而不是使用硬注意和重新校准特征图。Jetleyet等人[108]使用相应估计器生成的注意图重新加权DNN中的中间特征。此外,Hanet al.[82]利用属性感知注意来增强CNN的代表性.。

[227]: Residual attention network for image classification. InCVPR, pages 31563164, 2017.
[108]: Learn to pay attention. In ICLR, 2018.
[82]:  Attribute-aware attention model for fine-grained representation learning. InProceedings of the 26th ACM international conference on Multimedia, pages 20402048, 2018.
[184]: Stand-alone self-attention in vision models. InNeurIPS,2019
[3]: Multiple object recognition with visual attention. InICLR, 2014.
[76]: Diagnose like a radiologist: Attention guided convolutional neural network for thorax disease classification. InarXiv preprint arXiv:1801.09927, 2018.
[99]:  Squeeze-and-excitation networks. InCVPR, pages 71327141, 2018.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

Semantic Segmentation 语义分割
PSANet[281]、OCNet[262]、DANet[69]和CFNet[273]是首次提出在语义分割任务中使用自我注意模块。这些作品考虑并增强了上下文像素之间的关系和相似性[272]、[130]、[87]、[164]、[236]、[129]。DANET[69]同时利用空间和通道维度上的自我注意模块,而A2Net[35]将像素分组为一组区域,然后通过将区域表示与生成的关注权重聚合来增加像素表示。DGCNet[275]使用对偶图CNN在单个框架中对坐标空间相似性和特征空间相似性进行建模。为了提高自我注意模块进行语义分割的效率,已经提出了几个工作[264]、[106]、[104]、[131]、[120],旨在缓解像素相似度计算带来的大量参数。例如,CGNL[264]应用RBF核函数的泰勒级数来近似像素相似性。CCNet[106]通过两个连续的交叉注意模块来近似原始的自我注意方案。此外,ISSA[104]将稠密亲和矩阵分解为两个稀疏亲和矩阵的乘积。还有其他相关工作使用基于注意力的图推理模块[135]、[36]、[131]来增强局部和全局表示。

[281]: Psanet: Point-wise spatial attention network for scene parsing. InECCV, pages 267283, 2018.
[262]: Ocnet: Object context for semantic segmentation.International Journal of Computer Vision, pages 124, 2021.
[69]: Dual attention network for scene segmentation. InCVPR, pages 31463154, 2019.
[273]: Co-occurrent features in semantic segmentation. InCVPR, pages 548557, 2019.
[272]: Acfnet: Attentional class feature network for semantic segmentation. In ICCV, pages 67986807, 2019.
[130]: Expectation- maximization attention networks for semantic segmentation. InICCV, pages 91679176, 2019.
[87]: Adaptive pyramid context network for semantic segmentation. InCVPR, pages 75197528, 2019.
[164]: Attention u-net: Learning where to look for the pancreas. 2018.
[236]: Self-supervised equivariant attention mechanism for weakly supervised semantic seg- mentation. InCVPR, pages 1227512284, 2020.
[129]: Global aggregation then local distribution in fully convolutional networks. In BMVC, 2019.
[35]:2-nets: Double attention networks.NeurIPS, pages 352361, 2018.
[275]: Dual graph convolutional network for semantic segmentation. InBMVC, 2019.
[264]: Compact generalized non-local network. InNeurIPS, pages 65106519, 2018.
[106]: Ccnet: Criss-cross attention for semantic segmentation. InICCV, pages 603612, 2019.
[104]:  Interlaced sparse self-attention for semantic segmentation.arXiv preprint arXiv:1907.12273, 2019.
[131]: Beyond grids: Learning graph representations for visual recognition.NeurIPS, pages 92259235, 2018.
[120]:  Cabinet: Efficient context aggregation network for low-latency semantic segmentation.arXiv preprint arXiv:2011.00993, 2020.
[135]: Symbolic graph reasoning meets convolutions.NeurIPS, pages 18531863, 2018.
[36]: Graph-based global reasoning networks. InCVPR, pages 433442, 2019.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19

Object Detection 目标检测
Ramachandranet等人[184]提出了基于注意力的层,并交换了传统的卷积层,以构建性能优于CoCo基准[141]上的典型RetinaNet[140]的完全注意力检测器。GCNet[18]假设由非局部操作建模的全局上下文对于图像内的不同查询位置几乎相同,并将简化公式和SENET[99]统一为全局上下文建模的通用框架[128]、[96]、[62]、[172]。Voet等人[226]设计了一种双向操作,以收集信息并将信息从查询位置分发到所有可能的位置。Zhang et al.[271]认为以前的方法不能与跨尺度特征交互,并提出了基于自我注意模块的特征金字塔转换器,以充分利用空间和尺度上的交互作用。
常规检测方法通常利用单个视觉表示(例如,包围框和角点)来预测最终结果。Huet et al.[97]提出了一个基于自我注意的关系模型,通过对象外观特征之间的交互来同时处理一组对象。成都等人[41]提出了RelationNet++与桥接视觉表征(BVR)模块的结合,将不同的异构表征组合成一个类似于自我注意模块的单一表征。具体地,主表示被视为查询输入,辅助表示被视为键输入。因此,增强的特征可以从辅助表示中桥接信息,并有利于最终的检测结果。

[141]: Microsoft coco: Common objects in context. InECCV, pages 740755, 2014.
[140]: Focal loss for dense object detection. InICCV, 2017.
[184]: Stand-alone self-attention in vision models. InNeurIPS, 2019.
[18]: Gcnet: Non-local networks meet squeeze-excitation networks and beyond. InICCV Workshops, 2019.
[128]: Object detection based on an adaptive attention mechanism.Scientific Reports, pages 113, 2020.
[96]: One-shot object detection with co-attention and co-excitation. InNeurIPS, pages 27252734, 2019.
[62]: Few-shot object detection with attention-rpn and multi-relation detector. InCVPR, pages 40134022, 2020.
[172]: Spotnet: Self-attention multi-task network for object detection. In2020 17th Conference on Computer and Robot Vision (CRV), pages 230237, 2020.
[226]: Bidirectional non- local networks for object detection. InInternational Conference on Computational Collective Intelligence, pages 491501, 2020.
[271]: Feature pyramid transformer. InECCV, 2020.
[97]: Relation networks for object detection. InCVPR, pages 35883597, 2018.
[41]: Relationnet++: Bridging visual representations for object detection via transformer decoder.NeurIPS, 2020.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

Other Vision Tasks 其他视觉任务
Zhang et al.[274]提出了一种分辨率注意模块,用于在训练多分辨率网络时学习增强的特征地图,以便为姿势估计任务获得准确的人体关键点位置。此外,Changet et al.[22]使用基于注意机制的特征融合块来提高人体关键点检测模型的准确性。
为了探索更广泛的上下文信息以改进自我监督的单目训练深度估计,Johnstonet等人[114]直接利用自我注意模块。Chenet al.[37]还提出了一种基于注意力的聚合网络来捕捉不同场景中不同的上下文信息,用于深度估计。Aichet等人[1]提出了双向注意模块,该模块利用向前和向后注意操作来获得更好的单眼深度估计结果。

[274]: Learning enhanced resolution-wise features for human pose estimation. In2020 IEEE International Conference on Image Processing (ICIP), pages 22562260, 2020.
[37]: Attention-based context aggregation network for monocular depth estimation.International Journal of Machine Learning and Cybernetics, pages 15831596, 2021.
[1]: Bidirectional attention network for monocular depth estimation. In IEEE International Conference on Robotics and Automation (ICRA), 2021.
[22]: The same size dilated attention net- work for keypoint detection. InInternational Conference on Artificial Neural Networks, pages 471483, 2019.
[114]: Self-supervised monocular trained depth estimation using self-attention and discrete disparity volume. InCVPR, pages 47564765, 2020.
  • 1
  • 2
  • 3
  • 4
  • 5

5. CONCLUSIONS ANDDISCUSSIONS 结论与讨论

与CNN相比,transformer以其具有竞争力的性能和巨大的潜力成为计算机视觉领域的研究热点。近年来,为了发现和利用transformer的功率,人们提出了许多方法。这些方法在广泛的视觉任务中表现出优异的性能,包括脊椎、高/中级视觉、低级视觉和视频处理。然而,transformer在计算机视觉方面的潜力尚未得到充分开发,这意味着仍有几个挑战需要解决。在本节中,我们将讨论这些挑战,并提供对未来前景的见解。

5.1 Challenges

虽然研究人员提出了许多基于transformer的模型来处理计算机视觉任务,但这些工作只是这一领域的第一步,仍有很大的改进空间。例如,VIT[55]中的transformer架构遵循NLP[225]的标准变压器,但专门为CV设计的改进版本仍有待探索。此外,除了前面提到的任务之外,还需要将transformer应用到更多的任务中。

用于计算机视觉的transformer的通用性和健壮性也是具有挑战性的。与CNN相比,纯transformer缺乏一些归纳偏差,严重依赖海量数据集进行大规模训练[55]。因此,数据的质量对transformer的泛化和稳健性有很大的影响。虽然VIT在CIFAR[118]和VTAB[270]等下游图像分类任务中表现出优异的性能,但是直接将VIT主干应用于目标检测并不能取得比CNNS[10]更好的效果。还有很长的路要走,以便更好地将预先训练好的transformer推广到更一般化的视觉任务中。实践者关心transformer的健壮性(例如脆弱性问题[39])。虽然文献[277]、[155]、[157]已经对其鲁棒性进行了研究,但仍是一个有待解决的问题。

[55]: An image is worth 16x16 words: Transformers for image recognition at scale. InICLR, 2021.
[225]: Attention is all you need.NeurIPS, 30:59986008, 2017.
[118]: Learning multiple layers of features from tiny images. Technical report, Citeseer, 2009.
[270]: A large-scale study of representation learning with the visual task adaptation benchmark.arXiv preprint arXiv:1910.04867, 2019.
[10]: Toward transformer-based object detection.arXiv preprint arXiv:2012.09958, 2020.
[39]: Robust neural machine translation with doubly adversarial inputs. InProceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 43244333, 2019.
[277]: Adversarial attacks on deep-learning models in natural language processing: A survey.ACM Transactions on Intelligent Systems and Technology (TIST), 11(3):141, 2020.
[155]: On the robustness of vision transformers to adversarial examples.arXiv preprint arXiv:2104.02610, 2021
[157]: Rethinking the design principles of robust vision transformer.arXiv preprint arXiv:2105.07926, 2021.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

有各种类型的神经网络,如CNN、RNN和transformer。在CV领域,CNN曾经是主流选择[89],[213],但现在transformer变得越来越流行。CNN可以捕捉归纳偏见,如翻译等变和局部性,而ViT使用大规模训练来超越归纳偏见[55]。从目前可用的证据[55]来看,CNN在小数据集上表现良好,而Transformer在大数据集上表现更好。未来的问题是使用CNN还是transformer。

[193]:  Is attention interpretable? InProceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 29312951, 2019.
[239]: Attention is not not explanation. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 1120, 2019.
[23]: Transformer interpretability beyond attention visualization.arXiv preprintarXiv:2012.09838, 2020.
[151]: On the computational efficiency of training neural networks.NeurIPS, 27:855863, 2014.
[163]: Towards understanding the role of over-parametrization in generalization of neural networks.arXiv preprint arXiv:1805.12076, 2018.
  • 1
  • 2
  • 3
  • 4
  • 5

最后但并非最不重要的一点是,为CV开发高效的transformer模型仍然是一个悬而未决的问题。transformer模型通常很大,计算成本也很高。例如,基本VIT模型[55]需要180亿次FLOP来处理图像。相比之下,轻量级CNN模型Ghost Net[83],[84]仅需约6亿次FLOPS即可实现类似的性能。虽然已经提出了几种压缩transformer的方法,但它们仍然非常复杂。这些方法最初是为NLP设计的,但可能不适用于CV。因此,迫切需要高效的transformer模型,以便在资源有限的设备上部署视觉transformer。

[83]: Ghostnet: More features from cheap operations. InCVPR, pages 15801589, 2020.
[84]: Model rubik’s cube: Twisting resolution, depth and width for tinynets.NeurIPS, 33, 2020.
  • 1
  • 2

5.2 Future Prospects 未来展望

为了推动视觉变压器的发展,我们为未来的研究提供了几个潜在的方向。
一个方向是计算机视觉中变压器的有效性和效率。目标是开发高效的视觉转换器;具体来说,变压器具有高性能和低资源成本。性能决定了模型是否可以应用于现实世界的应用程序,而资源成本则影响设备上的部署[30],[136]。效率通常与效率相关,因此确定如何在两者之间实现更好的平衡是未来研究的一个有意义的课题。
大多数现有的vision transformer模型设计为只处理一项任务。许多NLP模型(如GPT-3[13])已经演示了transformer如何在一个模型中处理多个任务。CV领域的IPT[27]还能够处理多个低级视觉任务,例如超分辨率、图像去噪和去噪。我们相信,只有一种模式可以涉及更多的任务。将所有视觉任务甚至其他任务统一到一个转换器中(即,一个大的统一模型)是一个令人兴奋的话题。
有各种类型的神经网络,如CNN、RNN和transformer。在CV领域,CNN曾经是主流选择[89],[213],但现在变压器变得越来越流行。CNN可以捕捉归纳偏见,如翻译等变和局部性,而ViT使用大规模训练来超越归纳偏见[55]。从目前可用的证据[55]来看,CNN在小数据集上表现良好,而Transformer在大数据集上表现更好。未来的问题是使用CNN还是transformer。
通过使用大型数据集进行培训,transformers可以在NLP[13]、[50]和CV基准[55]上实现最先进的性能。神经网络可能需要大数据,而不是归纳偏差。最后,我们给你们留下一个问题:transformer能用一个非常简单的计算范式(例如,只有完全连接的层)和大量数据训练获得令人满意的结果吗?

[30]: Diannao: A small-footprint high-throughput accelerator for ubiquitous machine-learning.ACM SIGARCH Computer Architecture News, 42(1):269284, 2014.
[136]: Davinci: A scalable architecture for neural network computing. In2019 IEEE Hot Chips 31 Symposium (HCS), pages 144. IEEE Computer Society, 2019.
[13]: Language models are few-shot learners.arXiv preprint arXiv:2005.14165, 2020
[27]: Pre-trained image processing transformer. InCVPR, 2021.
[89]: Deep residual learning for image recognition. pages 770778, 2016.
[213]: Efficientnet: Rethinking model scaling for convolutional neural networks. InICML, 2019.
[50]: Bert: Pre-training of deep bidirectional transformers for language understanding. InNAACL- HLT (1), 2019.
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop】
推荐阅读
相关标签
  

闽ICP备14008679号