LSKA（大可分离核注意力）：重新思考CNN大核注意力设计_lska模型

作者：繁依Fanyi0 | 2024-06-09 05:26:07

踩

lska模型

文章目录

摘要
1、简介
2、相关工作
3、方法
4、实验
5、消融研究
6、与最先进方法的比较
7、ViTs和CNNs的鲁棒性评估基准比较
8、结论

摘要

https://arxiv.org/pdf/2309.01439.pdf
大型可分离核注意力（LSKA）模块的视觉注意力网络（VAN）已被证明在各种基于视觉的任务上提供了卓越的性能，超过了视觉转换器（ViTs）。然而，这些LSKA模块中的逐深度卷积层随着卷积核尺寸的增加，计算和内存占用呈二次增长。为了缓解这些问题，并使VAN的注意力模块能够使用极大的卷积核，我们提出了一种大型可分离核注意力模块，称为LSKA。LSKA将深度卷积层的2D卷积核分解为级联的水平1D和垂直1D内核。与标准LKA设计不同，提出的分解使得可以直接使用注意力模块中的深度卷积层的大内核，而不需要任何额外的块。我们证明，与标准LKA模块相比，VAN中的提议LSKA模块可以获得相当的性能，并降低计算复杂性和内存占用。我们还发现，随着内核尺寸的增加，提议的LSKA设计使VAN更加偏向于对象的形状而不是纹理。此外，我们对LKA和LSKA在VAN、ViTs和最近的ConvNeXt上的鲁棒性进行了基准测试，这些基准测试在以前的工作中很大程度上没有被探索过。我们的实验结果表明，当内核尺寸增加时，VAN中的提议LSKA模块显著降低了计算复杂性和内存占用，同时超过了ViTs、ConvNeXt，并与VAN中的LKA模块在对象识别、对象检测、语义分割和鲁棒性测试上提供了类似的性能。代码可在https://github.com/StevenLauHKHK/Large-Separable-Kernel-Attention获得。

1、简介

在过去的十年里，卷积神经网络（CNN）的结构和优化技术得到了迅速发展。这种演变来自于激活函数的设计[1] - [3]

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/692796