当前位置:   article > 正文

【语义分割】10、ISNet: Integrate Image-Level and Semantic-Level Context for Semantic Segmentation

isnet

在这里插入图片描述
出处:ICCV2021

一、背景

不同类别的共现特性(Co-occurrent)在语义分割中通常被用来聚合上下文特征,来提升像素的表达能力。

FCN 是一个有力的基石,基于此,目前的研究大多集中在两个方面:

  • 如何提升encoder对每个pixel的特征提取能力
  • 如何通过上下文信息的建模来提升每个像素的表达能力

不同类别目标的“共现特性”促使了很多方法的产生,主流有两种方法:

  • 多尺度上下文建模(Multi-scale context modeling):DeepLab,PSP
  • 关系上下文建模(Relational context modeling):Non-local,ACFNet,OCRNet

二、动机

现有的方法通常聚焦于从整幅图上建模语义信息,即聚合—— image-level contextual information。

但这样做会有一个问题,即忽略了同一个类别内部像素的特征表达——semantic-level contextual information。因此,它们都面临着同一个问题,即每个像素的上下文信息从该像素所属的类别区域和其他类别区域获取的不均匀。例如,边界处的像素或小目标的像素会更多的捕捉到其他目标的上下文信息,所以会导致网络将这些像素预测为其他类别。

于是本文提出了一种方法,来通过聚合 image-level && semantic-level contextual information 来增强像素表达

在这里插入图片描述

三、方法

SLCM: Semantic-Level Context Module
ILCM: Image-Level Context Module
在这里插入图片描述

3.1 整体过程

1、输入图像经过 backbone 得到 C × H 8 × W 8 C \times \frac{H}{8} \times \frac{W}{8} C×8H×8W
在这里插入图片描述

2、捕捉两种上下文信息

  • 使用 image-level context module M i l M_{il} Mil 来聚合整幅图像的上下文信息
    在这里插入图片描述

  • 使用 semantic-level context module S i l S_{il} Sil 来捕捉每个类别内的上下文信息 在这里插入图片描述

3、计算相似度

  • R R R R i l R_{il} Ril 的相似度
    在这里插入图片描述
  • S S S S i l S_{il} Sil 的相似度

4、使用相似度结果来增强(augment)特征

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
5、使用 R a u g R_{aug} Raug 来预测原图像素类别

在这里插入图片描述

  • H H H 是 classification head
  • O O O 能是存储着每个pixel预测类别信息的矩阵,大小为 K × H × W K\times H\times W K×H×W K K K 是类别个数

3.2 Image-Level Context Module

Image-level context module ( M i l M_{il} Mil)是用来从图像层面捕捉上下文信息的模块,之前的 ASPP/PPM/OCR 等模块都是使用类似的方式来入手的。

为了实现更高效的模块:

1、作者首先计算了 R R R 的 channel-wise 的平均值,如下所示, g g g 是维度为 C × 1 × 1 C\times 1\times 1 C×1×1 且包含了通道全局上下文信息的矩阵。
在这里插入图片描述
2、将 g g g R R R 相加,得到 R i l R_{il} Ril

在这里插入图片描述

  • F F F 是聚合函数,使用 1 × 1 1\times 1 1×1 卷积实现
  • r e p e a t repeat repeat 是在对应通道复制 g g g 的元素,使得 g g g R R R 大小相同

3.3 Semantic-Level Context Module

Semantic-Level Context Module( M s l M_{sl} Msl)被用来聚合每个类别内部的上下文信息,如图2所示:

1、首先使用 classification head H ′ H' H (两个卷积层构成) 来预测类别概率分布 D ∈ K × H 8 × W 8 D \in K \times \frac{H}{8} \times \frac{W}{8} DK×8H×8W
在这里插入图片描述
2、根据 D D D,则 R R R 可以被划分成多个类别区域

在这里插入图片描述

  • c k ∈ [ 1 , K ] c_k \in [1, K] ck[1,K]:表示类别真值
  • R c k ∈ N c k × C R_{ck} \in N_{ck} \times C RckNck×C N c k N_{ck} Nck 表示属于类别 c k c_k ck 的像素总数

3、 D c k ∈ N c k × 1 D_{ck} \in N_{ck}\times 1 DckNck×1 也可以表示如下:

在这里插入图片描述

4、利用每个像素属于的类别来聚合 semantic-level contextual information,每个语义类别 c k c_k ck 的 region representation 如下:
在这里插入图片描述

  • R c k ′ ∈ 1 × C R_{ck}' \in 1\times C Rck1×C,是每个类别内的聚合向量

5、求得所有 region representation 之后,得到 tensor:

在这里插入图片描述

  • R s l ∈ C × H 8 × W 8 R_{sl} \in C\times \frac{H}{8} \times \frac{W}{8} RslC×8H×8W 为最终的 semantic-level contextual information

3.4 Loss Function

1、 D D D 的loss

在这里插入图片描述
在这里插入图片描述
2、 O O O 的 loss
在这里插入图片描述
3、整体的多任务学习 loss, α = 0.4 \alpha=0.4 α=0.4

在这里插入图片描述

四、效果

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/361320
推荐阅读
相关标签
  

闽ICP备14008679号