赞
踩
针对弱监督语义分割(WSSS),提出了一种新的基于变换的框架来生成精确的类特定对象定位图
利用标准VIT中one-class token的参与区域可以生成与class-agnostic localization maps的洞察力
引入了对比类令牌(CCT)模块来增强判别类令牌的学习
有效地从与不同类令牌相关的类到补丁关注生成类判别对象定位映射
利用从patch到patch转换器的注意力衍生出来的patch级成对亲和力
结果强调了class token对WSSS的重要性
传统的语义分割方法通常依赖于精确标注的像素级标签
弱监督语义分割(WSSS)方法是在弱监督的前提下运行的,这涉及到使用更容易获得但更不精确的注释形式
尽量减少对像素级注释的需求
弱注释仅提供关于图像中对象或类的空间范围的有限信息,而没有指定每个区域的确切边界
WSSS任务的一个重要方面涉及到利用弱标签生成高质量的伪语义掩码
依赖卷积神经网络CNN的类激活映射CAM
CAM技术只能提供粗糙和不精确的类特定的密集定位图
WSSS技术采用了各种算法和策略包括:
弱标签中的歧义和噪声,以及CNN架构固有的问题例如,有限的接受域,可能导致不完美的伪真语义掩码
ViT的一个特殊之处在于它利用了一个额外的class token,它整合了来自整个patch token序列的信息。虽然一些转换器方法省略了class token
class token关注可以发现语义场景布局
但将头部准确地链接到语义类的方法仍然不确定
single class token阻碍了变形器在单个图像中定位各种class的能力
single class token特性:
为了解决这些限制,一个简单的解决方案涉及使用多个class token,每个class token都用于学习特定类的表示
仅仅增加ViT中的类令牌数量并不会赋予它们特定的含义
直接使用每个class token和patch token之间的学习注意作为不同对象类别的类特定定位映射
patch token之间学习的转换器注意本质上产生patch-level pairwise affinity
通过对同一个分类目标的多个class token和patch token的联合学习,实现了它们之间的强对齐,大大增强了生成的定位图的分类判别能力。
提出了MCTformer+:
CAM作为一种经典的弱监督对象定位方法,在现有的WSSS工作中被广泛采用
CAM无法生成完整的目标区域和精确的目标边界
提出了特定的分割损失函数[13]、[14]、[15]、[16]来处理分割监督不足的问题
增强CAM map,为语义分割提供高质量的监督
高质量CAM生成:
一种常见的解决方案涉及引入更大的挑战来实现分类目标
一些作品通过引入更细粒度的类别,将任务推进到更具挑战性的分类目标
为了解决标准图像分类目标损失函数不能保证发现完整目标区域的局限性,一些研究提出了正则化损失
传统图像分类cnn的局部接受域阻碍了判别信息的传播,并提出结合多尺度扩展卷积来获得更完整的定位图
学习类表示:
分类器的类相关权重和图像特征之间的逐像素关联来生成特定于每个类的定位映射
类相关的权重可以看作是类表示或类中心
面向CAM细化的亲和学习:
成对语义亲和学习的方法,用于CAM图的细化
CAMderived affinity伪标签学习相邻像素之间逐像素亲和力的方法。利用学习到的亲和力进行随机游走,实现CAM的传播
MCTformer是第一个利用特定类别的变压器注意进行判别定位的工作
MCTformer+进一步提高了类特定定位性能
Transformers最初是为处理NLP任务中的顺序数据而开发
基于Transformers的先锋视觉模型是ViT[11],它对图像patch进行操作
自关注模块是ViT的核心组件,它允许每个patch与图像中的所有其他patch进行交互
TS-CAM[45]将CAM模块集成到ViT中,实现了ViT内的分类区分定位
所提出的MCTformer利用特定类别的变压器注意力进行判别定位
MCTformer利用特定类别的变压器注意力进行判别定位。这被证明是CAM机制更有效的补充
ViTs for WSSS
MCTformer和AFA是最早使用vit进行WSSS的两个作品
我们提出了一种新的MULTI-CLASS TOKEN TRANSFORMER框架,利用特定于类的转换器关注进行WSSS的区分对象定位
MCTformer的整体架构
组成:
一个token class的标准VIT不同,提议的MCTformer配备了多个token class
指导每个patch tokrn使用patch token学习特定于类的注意
成分:
可以融合来自transformer注意和CAM模块的两种类型的映射
RGB图像被分割成N × N个小块。这些patch经过矢量化并线性投影成一系列patch token
每个MHA模块中,使用自关注机制来学习令牌之间的成对交互。作为输入,标记序列首先被归一化,然后线性投影到三个向量序列
这个关注模块通过基于特定的关注权重动态聚合来自所有token的信息来更新每个token
使用转换器自关注来提取和细化WSSS特定类的定位映射
传统的transformer在最终输出类别token上应用MLP头来预测类别分数
目标是确保每个token patch捕获唯一的、有区别的类相关信息
class token和真实图像级标签之间计算多标签软边际损失
每个class token提供了直接的类感知监督,使它们能够有效地封装特定于类的信息
Tout∈R(C+M)×DS的输出令牌
提取patch令牌Tout pat∈RM×D
2D特征映射,记为Fout pat∈RN×N×C
全局平均池(GAP)层处理这些特征映射以生成class token
MCTformer引入了一种有效的基于变压器的框架
自class token和patch token的类预测应用分类损失
这产生了更多的类别区分Patch CAM map
CAM[6]提出使用Global Average Pooling (GAP)使CNN仅使用图像级标签就具有定位能力
Kolesnikov等揭示了传统的全局池化技术有其缺点
我们将全局加权排名池(GWRP)方法引入到transformer框架中,以聚合Patch class以进行类别预测
GWRP根据每个通道所有Patch 的激活排名来分配不同的权重
GWRP策略允许模型优先考虑更多信息的补丁,确保它们对最终的全局类分数做出更大的贡献
虽然类感知训练策略使不同的类令牌能够关注不同的对象区域
同一图像中出现的不同类的最终类到class-to-patch transformer注意映射通常包含重叠的局部对象区域
为了获得不同且不重叠的class-to-patch transformer attention maps
提出了一个具有正则化损失的对比类令牌(CCT)模块
操作:
特定于class的Mul-token注意
较深的(顶层)层捕获更多特定于任务的高级表示,而较浅的(底层)层捕获更一般的低级表示
K个转换器编码层的类到补丁关注结合起来
Map fusion
由于将CAM模块集成到所提出的框架中,我们还可以从Patch token表示为Patch CAM, 中提取特定于类的定位映射
从CAM模块的卷积层得到PatchCAM映射
改进后的类特定 本地化mapA可以通过以下两种map类型的组合获得
Map refinement
以往的研究[37]、[38]、[39]经常利用成对亲和力来增强目标定位图。
学习亲和力训练额外的参数。
相比之下,我们的方法引入了一种新的技术,其中两两亲和映射直接从patch之间的变压器注意力中获得,而不需要任何额外的计算或监督
我们将patch-to-patch的关注重新格式化为4D张量
Aref∈RC×N×N是细化的融合类特定的定位图
利用patch-to-patch的注意力作为两两亲和力,可以得到更好的类特异性定位图,增强了外观的连续性和平滑性
PASCAL VOC 2012、MS COCO 2014和OpenImages三个数据集对所提出的方法进行评估
伪标签精度
分割结果精度
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。