赞
踩
关注公众号,发现CV技术之美
详细信息如下:
论文地址:https://arxiv.org/abs/2112.01527[1]
代码地址:https://bowenc0221.github.io/mask2former/[2]
01
图像分割是关于使用不同语义对像素进行分组,例如类别或实例,其中每个语义选择定义了一个任务。虽然只有每个任务的语义不同,但当前的研究重点是为每个任务设计专门的结构。
作者提出了一种能够处理任何图像分割任务(全景、实例或语义)的新结构——Masked-attention Mask Transformer(Mask2Former)。它的关键组成部分包括掩蔽注意力(masked attention),它通过在预测的mask区域内约束交叉注意力来提取局部特征。除了将研究工作量减少至少三倍外,它在四个流行数据集上的表现也大大优于最好的任务特定的结构。
最值得注意的是,Mask2Former为全景分割(COCO上为57.8 PQ)、实例分割(COCO上为50.1 AP)和语义分割(ADE20K上为57.7 mIoU)任务上达到新的SOTA水平。
02
图像分割研究像素分组问题。像素分组的不同语义(例如类别或实例)导致了不同类型的分割任务,例如全景、实例或语义分割。虽然这些任务仅在语义上有所不同,但当前的方法为每个任务开发专门的结构。基于全卷积网络(FCN)的逐像素分类体系结构用于语义分割,而预测一组二进制掩码的掩码分类结构则主导了实例分割。尽管这种专门的结构改进了每个单独的任务,但它们缺乏推广到其他任务的灵活性。例如,基于FCN的结构在实例分割方面存在困难。因此,重复的研究和硬件优化工作花费在每个针对任务的专用结构。
为了解决这种分割问题,最近的工作试图设计通用架构,能够用相同的架构处理所有分割任务(即通用图像分割)。这些结构通常基于端到端集预测目标(例如,DETR),并在不修改结构、损失或训练过程的情况下成功地处理多个任务。注意,尽管具有相同的体系结构,但通用结构仍然针对不同的任务和数据集分别进行训练。除了灵活之外,通用结构最近在语义和全景分割方面显示了最先进的结果。然而,最近的工作仍然集中在推进专用结构上,这就提出了一个问题:为什么通用结构没有取代专用结构?
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。