赞
踩
出处:ICCV2021
不同类别的共现特性(Co-occurrent)在语义分割中通常被用来聚合上下文特征,来提升像素的表达能力。
FCN 是一个有力的基石,基于此,目前的研究大多集中在两个方面:
不同类别目标的“共现特性”促使了很多方法的产生,主流有两种方法:
现有的方法通常聚焦于从整幅图上建模语义信息,即聚合—— image-level contextual information。
但这样做会有一个问题,即忽略了同一个类别内部像素的特征表达——semantic-level contextual information。因此,它们都面临着同一个问题,即每个像素的上下文信息从该像素所属的类别区域和其他类别区域获取的不均匀。例如,边界处的像素或小目标的像素会更多的捕捉到其他目标的上下文信息,所以会导致网络将这些像素预测为其他类别。
于是本文提出了一种方法,来通过聚合 image-level && semantic-level contextual information 来增强像素表达
SLCM: Semantic-Level Context Module
ILCM: Image-Level Context Module
1、输入图像经过 backbone 得到
C
×
H
8
×
W
8
C \times \frac{H}{8} \times \frac{W}{8}
C×8H×8W
2、捕捉两种上下文信息
使用 image-level context module
M
i
l
M_{il}
Mil 来聚合整幅图像的上下文信息
使用 semantic-level context module S i l S_{il} Sil 来捕捉每个类别内的上下文信息
3、计算相似度
4、使用相似度结果来增强(augment)特征
5、使用
R
a
u
g
R_{aug}
Raug 来预测原图像素类别
Image-level context module ( M i l M_{il} Mil)是用来从图像层面捕捉上下文信息的模块,之前的 ASPP/PPM/OCR 等模块都是使用类似的方式来入手的。
为了实现更高效的模块:
1、作者首先计算了
R
R
R 的 channel-wise 的平均值,如下所示,
g
g
g 是维度为
C
×
1
×
1
C\times 1\times 1
C×1×1 且包含了通道全局上下文信息的矩阵。
2、将
g
g
g 和
R
R
R 相加,得到
R
i
l
R_{il}
Ril
Semantic-Level Context Module( M s l M_{sl} Msl)被用来聚合每个类别内部的上下文信息,如图2所示:
1、首先使用 classification head
H
′
H'
H′ (两个卷积层构成) 来预测类别概率分布
D
∈
K
×
H
8
×
W
8
D \in K \times \frac{H}{8} \times \frac{W}{8}
D∈K×8H×8W
2、根据
D
D
D,则
R
R
R 可以被划分成多个类别区域
3、 D c k ∈ N c k × 1 D_{ck} \in N_{ck}\times 1 Dck∈Nck×1 也可以表示如下:
4、利用每个像素属于的类别来聚合 semantic-level contextual information,每个语义类别
c
k
c_k
ck 的 region representation 如下:
5、求得所有 region representation 之后,得到 tensor:
1、 D D D 的loss
2、
O
O
O 的 loss
3、整体的多任务学习 loss,
α
=
0.4
\alpha=0.4
α=0.4
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。