3.6 Efficient Transformer 高效Transformer

虽然Transformer 模型已经在各种任务中取得了成功,但它们对内存和计算资源的高要求阻碍了它们在资源有限的设备(如手机)上的实施。在这一部分中,我们回顾了为有效实施而对压缩和加速变压器模型进行的研究。这包括网络剪枝、低级分解、知识提取、网络量化和紧凑的体系结构设计。表5列出了压缩基于Transformer 的模型的一些代表性工作。


3.6.1 Pruning and Decomposition 修剪和分解

在基于Transformer的预训练模型(例如,BERT)中,并行执行多个注意操作以独立地对不同令牌之间的关系建模[225]、[50]。但是,特定任务不需要使用所有磁头。例如,Michelet等人[159]提出的经验证据表明,在测试时可以移除很大比例的注意力头部,而不会显著影响表现。所需的磁头数量在不同的层上有所不同-有些层甚至可能只需要一个磁头。在[159]中,考虑到注意头的冗余性,定义了重要度分数来估计每个头对最终输出的影响,并可以删除不重要的头以进行有效的部署。Dalviet等人[175]从两个角度分析了预先训练的变压器模型中的冗余:一般冗余和特定任务冗余。根据彩票假说[67],Prasannaet等人[175]分析了BERT中的彩票,并表明在基于Transformer的模型中也存在良好的子网络,减少FFN层和注意力头以实现高压缩率。对于将一幅图像分割成多个块的视觉Transformer [55],Tanget等[214]提出了减少块计算以加速推理的方法,并通过考虑冗余块对有效输出特征的贡献来自动发现冗余块。朱等人[290]将网络瘦身方法[147]扩展到视觉转换器,以降低FFN和注意模块中的线性投影的维度。

除了Transformer模型的宽度之外,深度(即,层数)也可以减少以加速推理过程[59]。与Transformer模型中不同的关注头可以并行计算的概念不同,不同的层必须按顺序计算,因为下一层的输入取决于前几层的输出。Fanet等人[59]提出了一种分层丢弃策略来规范模型的训练,然后在测试阶段将整个层一起移除。考虑到不同设备中可用的资源可能不同,Houet al.[95]建议自适应地减小预定义Transformer模型的宽度和深度。该方法同时获得多个不同大小的模型,并通过重新布线机制在不同的子网络上共享重要的注意力头部和神经元。


3.6.2 Knowledge Distillation 知识蒸馏

知识蒸馏的目的是通过从大型教师网络[93]、[15]、[2]转移知识来训练学生网络。与教师网络相比,学生网络通常具有更薄、更浅的体系结构,更容易在资源有限的资源上部署。神经网络的输出特性和中间特性也可以用来将有效信息从教师传递给学生。专注于变压器模型,Mukherjeeet等人[162]利用大量未标记的数据,使用预先训练好的Bert[50]作为老师来指导小模型的培训。Wanget等人[231]训练学生网络来模仿预先训练的教师模型中自我注意层的输出。价值之间的点积作为一种新的知识形式被引入来指导学生。在[231]中还引入了教师助理[160],缩小了大型预先训练的变压器模型和紧凑的学生网络之间的差距,从而促进了模仿。由于转换模型中有不同类型的层(即自觉层、嵌入层和预测层),焦立中等[113]设计了不同的目标函数来将知识从教师传递给学生。例如,学生模型嵌入层的输出通过MSE损失来模仿教师的输出。还实施了可学习的线性变换,以将不同的特征映射到同一空间。对于预测层的输出,采用KL-散度来衡量不同模型之间的差异。对于视觉转换器,Jiaet et al.[109]提出了一种细粒度流形提取方法,该方法通过图像与分割块之间的关系来挖掘有效的知识.。

3.6.3 Quantization 量化

量化旨在减少表示网络权重或中间特征所需的比特数[224]、[255]。详细讨论了一般神经网络的量化方法,取得了与原始网络[170]、[68]、[7]相当的性能。最近,人们对如何对变压器模型[12]、[60]进行特殊量化越来越感兴趣。例如,Shridharet al.[199]建议将输入嵌入到二进制高维向量中,然后使用二进制输入表示来训练二进制神经网络。Cheonget al.[40]用低位(例如,4位)表示变压器模型中的权重。研究了各种量化方法,表明K-Means量化具有巨大的发展潜力。针对机器翻译任务,Pratoet al.[176]提出了一种完全量化的转换器,正如论文所称,它是第一个在翻译质量上没有任何损失的8位模型。此外,Liuet al.[150]探索了一种训练后量化方案,以降低视觉转换器的内存存储和计算成本

3.6.4 Compact Architecture Design

除了将预定义的变压器模型压缩成更小的模型外,一些工作还试图直接设计紧凑的模型[244],[112]。Jianget al.[112]提出了一个新的模块,称为基于Span的动态卷积,将完全连接的层和卷积层结合起来,从而简化了自我注意的计算,如图15所示。通过卷积运算计算来自不同令牌的表示之间的局部依赖性,这比标准变压器中的密集全连接层要有效得多。深度卷积也用于进一步降低计算成本。[73]中提出了有趣的“汉堡”层,使用矩阵分解来替代原始的自我关注层。与标准的自我注意操作相比,矩阵分解可以更有效地计算,同时清楚地反映不同标记之间的依赖关系。高效变压器架构的设计也可以通过神经架构搜索(NAS)[80],[200]实现自动化,该搜索自动搜索如何组合不同的组件。例如,Suet al.[205]搜索了线性投影的面片大小和尺寸,以及注意模块的头部数量,以获得一个高效的视觉转换器。Liet al.[125]探索了一种自我监督搜索策略,以获得一种由卷积模块和自我注意模块组成的混合架构。

transformer模型中的自我注意操作计算给定序列中不同输入标记的表示之间的点积(图像识别任务[55]中的补丁),其复杂性为isO(N),其中为序列长度。最近,一个有针对性的焦点是在大型方法中降低复杂性(N),以便变压器模型可以扩展到长序列。例如,Katharopouloset等人[116]将自我注意近似为内核特征映射的线性点积,并通过RNN揭示了标记之间的关系。Zaheeret al.[267]将每个标记视为图中的顶点,并将两个标记之间的内积计算定义为边。受图论[201]、[46]的启发,将各种稀疏图组合起来,以逼近变压器模型中的稠密图,并可实现EO(N)复杂度。从理论角度来看,Y unet al.[265]证明了具有O(N)复杂度的稀疏变换器足以反映令牌之间的任何类型的关系,并且可以进行普适逼近,为进一步研究具有O(N)复杂度的变换器提供了理论保证。

Image Classification 图像分类
用于分类的可训练注意包括两个主流:关于图像区域使用的硬注意[3]、[161]、[250]和生成非刚性特征映射的软注意[227]、[108]、[82]、[184]。Baet al.[3]首先提出了图像分类任务的术语“视觉注意”,并使用注意来选择输入图像中的相关区域和位置。这还可以降低所提出模型关于输入图像大小的计算复杂度。对于医学图像分类,AG-CNN[76]提出通过注意热图从全局图像中裁剪一个子区域。SENet[99]提出使用软性自我注意重新加权卷积特征的通道响应,而不是使用硬注意和重新校准特征图。Jetleyet等人[108]使用相应估计器生成的注意图重新加权DNN中的中间特征。此外,Hanet al.[82]利用属性感知注意来增强CNN的代表性.。

Semantic Segmentation 语义分割

Object Detection 目标检测
Ramachandranet等人[184]提出了基于注意力的层,并交换了传统的卷积层,以构建性能优于CoCo基准[141]上的典型RetinaNet[140]的完全注意力检测器。GCNet[18]假设由非局部操作建模的全局上下文对于图像内的不同查询位置几乎相同,并将简化公式和SENET[99]统一为全局上下文建模的通用框架[128]、[96]、[62]、[172]。Voet等人[226]设计了一种双向操作,以收集信息并将信息从查询位置分发到所有可能的位置。Zhang et al.[271]认为以前的方法不能与跨尺度特征交互,并提出了基于自我注意模块的特征金字塔转换器,以充分利用空间和尺度上的交互作用。
常规检测方法通常利用单个视觉表示(例如,包围框和角点)来预测最终结果。Huet et al.[97]提出了一个基于自我注意的关系模型,通过对象外观特征之间的交互来同时处理一组对象。成都等人[41]提出了RelationNet++与桥接视觉表征(BVR)模块的结合,将不同的异构表征组合成一个类似于自我注意模块的单一表征。具体地,主表示被视为查询输入,辅助表示被视为键输入。因此,增强的特征可以从辅助表示中桥接信息,并有利于最终的检测结果。

Other Vision Tasks 其他视觉任务
Zhang et al.[274]提出了一种分辨率注意模块,用于在训练多分辨率网络时学习增强的特征地图,以便为姿势估计任务获得准确的人体关键点位置。此外,Changet et al.[22]使用基于注意机制的特征融合块来提高人体关键点检测模型的准确性。
为了探索更广泛的上下文信息以改进自我监督的单目训练深度估计,Johnstonet等人[114]直接利用自我注意模块。Chenet al.[37]还提出了一种基于注意力的聚合网络来捕捉不同场景中不同的上下文信息,用于深度估计。Aichet等人[1]提出了双向注意模块,该模块利用向前和向后注意操作来获得更好的单眼深度估计结果。

5.1 Challenges



[193]:  Is attention interpretable? InProceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 29312951, 2019.
[239]: Attention is not not explanation. In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 1120, 2019.
[23]: Transformer interpretability beyond attention visualization.arXiv preprintarXiv:2012.09838, 2020.
[151]: On the computational efficiency of training neural networks.NeurIPS, 27:855863, 2014.
[163]: Towards understanding the role of over-parametrization in generalization of neural networks.arXiv preprint arXiv:1805.12076, 2018.
最后但并非最不重要的一点是,为CV开发高效的transformer模型仍然是一个悬而未决的问题。transformer模型通常很大,计算成本也很高。例如,基本VIT模型[55]需要180亿次FLOP来处理图像。相比之下,轻量级CNN模型Ghost Net[83],[84]仅需约6亿次FLOPS即可实现类似的性能。虽然已经提出了几种压缩transformer的方法,但它们仍然非常复杂。这些方法最初是为NLP设计的,但可能不适用于CV。因此,迫切需要高效的transformer模型,以便在资源有限的设备上部署视觉transformer。

5.2 Future Prospects 未来展望

大多数现有的vision transformer模型设计为只处理一项任务。许多NLP模型(如GPT-3[13])已经演示了transformer如何在一个模型中处理多个任务。CV领域的IPT[27]还能够处理多个低级视觉任务,例如超分辨率、图像去噪和去噪。我们相信,只有一种模式可以涉及更多的任务。将所有视觉任务甚至其他任务统一到一个转换器中(即,一个大的统一模型)是一个令人兴奋的话题。

