当前位置:   article > 正文

LSKA(大可分离核注意力):重新思考CNN大核注意力设计_lska模型

lska模型

摘要

https://arxiv.org/pdf/2309.01439.pdf
大型可分离核注意力(LSKA)模块的视觉注意力网络(VAN)已被证明在各种基于视觉的任务上提供了卓越的性能,超过了视觉转换器(ViTs)。然而,这些LSKA模块中的逐深度卷积层随着卷积核尺寸的增加,计算和内存占用呈二次增长。为了缓解这些问题,并使VAN的注意力模块能够使用极大的卷积核,我们提出了一种大型可分离核注意力模块,称为LSKA。LSKA将深度卷积层的2D卷积核分解为级联的水平1D和垂直1D内核。与标准LKA设计不同,提出的分解使得可以直接使用注意力模块中的深度卷积层的大内核,而不需要任何额外的块。我们证明,与标准LKA模块相比,VAN中的提议LSKA模块可以获得相当的性能,并降低计算复杂性和内存占用。我们还发现,随着内核尺寸的增加,提议的LSKA设计使VAN更加偏向于对象的形状而不是纹理。此外,我们对LKA和LSKA在VAN、ViTs和最近的ConvNeXt上的鲁棒性进行了基准测试,这些基准测试在以前的工作中很大程度上没有被探索过。我们的实验结果表明,当内核尺寸增加时,VAN中的提议LSKA模块显著降低了计算复杂性和内存占用,同时超过了ViTs、ConvNeXt,并与VAN中的LKA模块在对象识别、对象检测、语义分割和鲁棒性测试上提供了类似的性能。代码可在https://github.com/StevenLauHKHK/Large-Separable-Kernel-Attention获得。

1、简介

在过去的十年里,卷积神经网络(CNN)的结构和优化技术得到了迅速发展。这种演变来自于激活函数的设计[1] - [3]

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/692796
推荐阅读
相关标签
  

闽ICP备14008679号