赞
踩
卷积只对局部邻域运算,会丢失全局信息。
提出了Attention Augmentation method(注意增强方法),利用self-attention机制来增强卷积算子。将强调局部性的卷积特征映射与能够对较长范围的相关进行建模的self-attention特征映射连接起来。
方法偏重与理论推导而非模型改变,但是具有很强的可借鉴意义。
可参考:Attention Augmented Convolutional Networks 笔记
卷积难以捕捉global feature,self-attention机制可以捕捉长距离的特征信息,但会模糊前景和弱化局部信息。
单一的CNN和TRM均不能解决当前视觉领域存在的问题,并且作者观察到,在浅层网络,即使通过self-attention计算全局的相似度实际关注的仍为相邻时空区域的关系。
即以往的ViT虽然使用全局的attention计算,但最终学习的多数仍是局部表征,造成大量冗余的计算。
基于以上的观察,作者提供了将CNN和TRM结合的全新结构
模型整体借鉴CNN层次化设计,每层包含多个Transformer风格的UniFormer block。
每个UniFormer block主要由三部分组成,动态位置编码DPE、多头关系聚合器MHRA)及Transformer必备的前馈层FFN,其中最关键的为多头关系聚合器。
与多头注意力相似,Uniformer将关系聚合器设计为多头风格,每个头单独处理一组channel的信息,每组的channel先通过线性变换生成上下文token V n ( X ) V_n(X) Vn(X),然后在token affinity A n A_n An的作用下,对上下文信息进行聚合。这里设计两种MHRA
使用卷积位置编码设计动态位置编码
DWConv为零填充的的深度可分离卷积。
一方面,卷积对任何输入形式都很友好,也很容易拓展到空间维度统一编码时空位置信息。另一方面,深度可分离卷积十分轻量,额外的零填充可以帮助每个token确定自己的绝对位置。
FFN无特别设计,组合了两个线性层和一个GELU激活函数。
SPL全称IEEE Signal Processing Letters,篇幅较小,期刊要求4页正文,1页参文共五页**(双栏)**。
SPL全篇共有一下几部分
注意格式和引文的遗漏。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。