赞
踩
https://arxiv.org/pdf/2309.01439.pdf
大型可分离核注意力(LSKA)模块的视觉注意力网络(VAN)已被证明在各种基于视觉的任务上提供了卓越的性能,超过了视觉转换器(ViTs)。然而,这些LSKA模块中的逐深度卷积层随着卷积核尺寸的增加,计算和内存占用呈二次增长。为了缓解这些问题,并使VAN的注意力模块能够使用极大的卷积核,我们提出了一种大型可分离核注意力模块,称为LSKA。LSKA将深度卷积层的2D卷积核分解为级联的水平1D和垂直1D内核。与标准LKA设计不同,提出的分解使得可以直接使用注意力模块中的深度卷积层的大内核,而不需要任何额外的块。我们证明,与标准LKA模块相比,VAN中的提议LSKA模块可以获得相当的性能,并降低计算复杂性和内存占用。我们还发现,随着内核尺寸的增加,提议的LSKA设计使VAN更加偏向于对象的形状而不是纹理。此外,我们对LKA和LSKA在VAN、ViTs和最近的ConvNeXt上的鲁棒性进行了基准测试,这些基准测试在以前的工作中很大程度上没有被探索过。我们的实验结果表明,当内核尺寸增加时,VAN中的提议LSKA模块显著降低了计算复杂性和内存占用,同时超过了ViTs、ConvNeXt,并与VAN中的LKA模块在对象识别、对象检测、语义分割和鲁棒性测试上提供了类似的性能。代码可在https://github.com/StevenLauHKHK/Large-Separable-Kernel-Attention获得。
在过去的十年里,卷积神经网络(CNN)的结构和优化技术得到了迅速发展。这种演变来自于激活函数的设计[1] - [3]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。