赞
踩
做实验用到了EfficientViT就去查阅了一些文献,本文记录一些自己对EfficientViT架构的理解~
ViT(Vision Transformer)是2020年提出、于2021年发表的的将自然语言处理(NLP)领域的transformer引入自然语言处理(CV)领域用于分类的训练模型,在公开数据集的训练中超过了Res,且越大的数据集训练效果越好。
与卷积神经网络(CNN)相比,ViT具有更强的全局信息捕获能力和远程交互能力,特别是在扩大训练数据大小和模型大小时表现出优于CNN的准确性[3],但是,在对高分辨率移动场景应用时,ViT不如CNN,此时便引入了EfficientViT,及高效率的ViT[4]。EfficientViT在此基础上可以达到高分辨率地计算的视觉识别效果。
EfficientViT用线性注意力代替了softmax注意力,解决了ViT的计算瓶颈,并保持了ViT的核心优势全局特征提取能力;同时通过深度卷积增强模型的局部特征提取能力,享受线性计算复杂度。线性注意力推导过程如公式如公式(1)、(2)所示。
仿照softmax函数计算公式,线性提出的相似度函数Sim(Q,K)公式(1)所示:
其中是核函数,算法中使用对硬件友好的ReLU。
线性注意力的广义形式推导如下:
如公式(2)所示,使用线性注意力只需要计算一次(和,然后重用即可,即此种方法只需要O(N)的计算成本和O(N)的内存;简而言之,EfficientViT可以利用矩阵乘法的关联属性计算复杂度,其计算量从二次优化到线性且不改变功能。
参考文献:
[1] Alexey Dosovitskiy, Lucas Beyer , Alexander Kolesnikov , Dirk Weissenborn , Xiaohua Zhai , Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. ICLR 2021
[2] CAI H, GAN C, HAN S. EfficientViT: Enhanced Linear Attention for High-Resolution Low-Computation Visual Recognition[J]. 2022.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。