赞
踩
感觉实验做的也太少了…很水
https://arxiv.org/pdf/2009.14082.pdf
https://github.com/YimianDai/open-aff
特征融合是来自不同层或分支的特征的组合,是现代网络体系结构中无所不在的一部分。它通常通过简单的操作(例如求和或拼接)来实现,但这可能不是最佳选择。在这项工作中,我们提出了一个统一的通用方案,即注意力特征融合,该方案适用于大多数常见场景,包括短跳跃和长跳跃连接以及在Inception层中引起的特征融合。为了更好地融合语义和尺度不一致的特征,我们提出了多尺度通道注意力模块,该模块解决了融合不同尺度给出的特征时出现的问题。我们还证明了特征图的初始集成可能会成为瓶颈,并且可以通过添加另一个注意力级别(称为迭代关注特征融合)来缓解此问题。在更少参数或网络层的情况下,我们的模型在CIFAR-100和ImageNet数据集上均优于最新的网络,这表明与特征直接融合相比,用于特征融合的更复杂的注意力机制具有持续产生更好结果的巨大潜力。
多尺度通道注意力模块,结构比较简单,使用尺度不同的两个分支来提取通道注意力权重。其中一个分支使用Global Avg Pooling来提取全局特征的注意力,另一个分支直接使用point-wise卷积提取局部特征的通道注意力。
如上图所示,AFF主要是针对不同网络结构中,不同尺度特征融合时的注意力问题。给定两个特征图X,Y∈R C×H×W,默认情况下,假设Y是具有较大感受野范围的特征图。 对于不同结构中,具体X,Y对应:
1.同层场景:在InceptionNet中,X是3×3卷积的输出,Y是5×5卷积的输出;
2.短跳跃连接场景:X是本身映射,Y是ResNet块中的学习残差;
3.长跳跃连接场景:X是低层特征图,Y是高层特征金字塔中的高阶语义特征图。
基于多尺度通道注意力模块MS-CAM,可以将注意力特征融合(AFF)表示为:
其中Z∈R C×H×W是融合后的输出特征,而+表示初始特征集成。 为简单起见,本文选择逐元素求和作为初始积分。 在图2(a)中示出了AFF,其中虚线表示1-M(X + Y)。 应该注意的是,融合权重M(X + Y)由0到1之间的实数组成,1-M(X + Y)也是如此,这使得网络可以在X和X之间进行软选择或加权平均。
iAFF针对初始特征集成对于注意力特征融合影响比较大的问题,使用额外一层AFF生成更好的初始特征,i也是对应Iterative即迭代的意思。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。