赞
踩
(Meng-Hao Guo)BNRist, Department of Computer Science and Technology, Tsinghua University
TMCC, CS, Nankai University
Fitten Tech, Beijing, China
阐述了近期基于Transformer由于其具编码空间信息的自注意力而在语义分割领域占据重要位置
本文展示了卷积注意力在编码上下文信息上比transformer自注意力更有效
发现了导致语义分割性能提升的几个关键因素
SegNeXt仅用少量的参数,即可实现在VOC2012上90.6%的mIoU,代码开放
经历了早期FCN、DeepLab系列,到近期基于Transformer的模型,如SETR、SegFormer
总结了一个好的语义分割模型应该具有以下几个特征:
强主干网络。例如Transformer主干网络比基于CNN更强。
多尺度信息交互。语义分割是密集预测任务,需要在一张图像中处理不同尺度的物体。
空间注意力。空间注意允许模型通过语义区域内区域的优先级来进行分割。
低计算复杂度。尤其是遥感、高分辨力图像的处理。
本文方法转换了transformer-convolution的编解码器架构,对于编码器中的每个block,改进了传统的卷积块的设计,利用多尺度卷积特征,使用简单的元素乘计算,来唤起空间注意力(Ref. 24)。经发现,这种方式在空间信息编码比标准卷积和自注意力更有效果。
在编码器,从不同阶段收集多尺度(多层次,mutil-level)特征,并使用Hamburger来进一步提取全局上下文信息。这种方法可以得到从局部到全局的多尺度上下文特征,实现对空间和通道维度的适应性,以及从低到高层次的信息聚合。
本文的贡献总结如下:
采用金字塔结构(pyramid structure)作为编码器
采用类似ViT结构,但是不采用自注意力,采用一种新的多尺度卷积注意力(Multi-Scale Convolutional Attention, MSCA),如下图
如上图,MSCA包含三个部分,分别是,深度可分离卷积(获取局部信息),多分支深度可分离strip卷积(以捕获多尺度上下文),1×1卷积(建模不同通道之间的关系)。将1×1卷积的输出直接作为注意力权值,重新作为MSCA的输入权重
公式表示如下:
A
t
t
=
Conv
1
×
1
(
∑
i
=
0
3
Scale
i
(
D
W
−
Conv
(
F
)
)
)
,
O
u
t
=
A
t
t
⊗
F
.
为什么使用深度可分离卷积。一方面,条带卷积是轻量级的。为了模拟核大小为7×7的标准二维卷积,我们只需要一对7×1和1×7卷积。另一方面,在分割场景中也有一些条状物体,如人杆和电线杆。因此,条状卷积可以作为网格卷积的补充,并有助于提取条状特征。(参考文献)
堆叠一系列的构建块产生了所提出的卷积编码器,名为MSCAN。
对于NSCAN,采用通用的层次结构,包含4个递进式空间分辨率的阶段,分别是, H 4 × W 4 , H 8 × W 8 , H 16 × W 16 和 H 32 × W 32 \frac{H}{4} \times \frac{W}{4}, \frac{H}{8} \times \frac{W}{8}, \frac{H}{16} \times \frac{W}{16} \text { 和} \frac{H}{32} \times \frac{W}{32} 4H×4W,8H×8W,16H×16W 和32H×32W。在这里,H和W分别为输入图像的高度和宽度。每个阶段都包含一个下采样块和如上所述的构建块的堆栈。降采样块与步长为2和核大小为3×3进行卷积,然后是批处理归一化层。注意,在MSCAN的每个构建块中,我们使用批归一化而不是层归一化,因为我们发现批归一化在分割性能方面更好。
本文设计了四种不同大小的编码器架构:
解码器常常用于作为捕获高层次的语义信息,应用在编码器之后。
本文研究了三个简单的解码架构,如下图:
第一个,图(a),采用SegFormer,是一个基于MLP的架构。
第二个,图(b),通常采用基于CNN的模型,例如ASPP,PSP,DANet等
第三个,图©,应用于本文模型。融合了前三个阶段的特征,同时使用轻量级的Hamburger架构,来进一步建模全局上下文。
结合强大的卷积编码器,本文发现使用轻量级解码器可以提高性能计算效率。
解码器只接收来自最后三个阶段的特征。这是因为SegNeXt是基于卷积的。阶段1的特性包含太多的低级信息,损害了性能。此外,在阶段1上的操作也带来了巨大的计算开销。在实验部分将展示SegNeXt比最近最先进的基于transformer的SegFormer[80]和HRFormer[88]表现得好得多。
全局上下文。解码器在整合分割模型的多尺度特征的全局上下文中起着重要的作用。基于注意力的解码器对cnn比金字塔结构具有更好的性能==(文献)==,因此只使用基于注意力的解码器来显示结果。展示了4种不同类型的基于注意的解码器的结果,包括具有O(n^2)复杂度的非局部(non-local,NL)注意力[75]和具有O (n)复杂度的CCNet [34]、EMANet [40]和HamNet [21]。如表5,因此,选用Hamburger作为解码器。
解码器架构。与图像分类不同,分割模型需要高分辨率的输出。采用了三种不同的解码器设计进行分割,如图3所示。相应的结果列在表7,可以看到,SegNeXt ©取得了最好的性能,计算成本也很低。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。