赞
踩
一句话总结:OneFormer3D是一个统一、简单、有效的模型,同时实现了3D点云的语义分割、实例分割和全景分割。
3D点云分割主要包含三类:语义、实例和全景。语义分割为每个语义类别输出一个掩码,使得点云中的每个点被分配一个语义标签。实例分割返回一组单个对象的掩码。全视角分割为每个前景对象预测一个掩码,并为每个背景点预测一个语义标签。
三个三维分割任务实际上都隐含着预测一组掩码,但它们通常是完全不同的架构。三维语义分割方法依赖于 U-Net网络。三维实例分割方法将语义分割模型与基于聚类、目标检测或Transformer解码器的聚合方案相结合。三维全景分割在二维图像中执行全景分割,然后将预测的掩码提升到三维空间并逐点聚合。
至此,出现了一个很自然的问题:能否用单一统一的方法共同解决所有三个三维分割任务?
这就是OneFormer3D的工作,第一个多任务统一的三维分割框架。使用 SPFormer 基线,在Transformer解码器中并行添加语义查询和实例查询,以统一预测语义和实例分割掩码。然后,确定了基于Transformer的三维实例分割性能不稳定的原因,并通过新的查询选择机制和新的高效匹配策略解决了问题。最后,提出了一个只需训练一次的单一统一模型,即使它们专门针对每个任务进行了调整,也能优于三维语义、三维实例和三维全视角分割方法。
下面一起来阅读一下这项工作~
标题:OneFormer3D: One Transformer for Unified Point Cloud Segmentation
作者:Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich
机构:三星研究
原文链接:https://arxiv.org/abs/2311.14405
代码链接:https://github.com/filapro/oneformer3d
三维点云的语义分割、实例分割和全景分割已经使用特定任务的不同设计模型来解决。因此,所有分割任务的相似性和它们之间的隐含关系尚未有效利用。本文提出了一个统一、简单、有效的模型,同时解决了所有这些任务。该模型名为OneFormer3D,使用一组可学习的内核一致执行实例和语义分割,其中每个内核负责为实例或语义类别生成掩码。这些内核使用基于Transformer的解码器进行训练,统一实例和语义查询作为输入传递。这样的设计使得可以在单次运行中端到端地训练模型,从而同时在所有三个分割任务上实现最佳性能。具体来说,我们的OneFormer3D在ScanNet测试排行榜上排名第一,并创造了新的最先进成绩(+2.1 mAP50)。我们还展示了在ScanNet(+21 PQ)、ScanNet200(+3.8 mAP50)和S3DIS(+0.8 mIoU)数据集的语义、实例和全景分割中的最先进结果。
OneFormer3D以3D点云作为输入,解决3D实例,3D语义和3D全景分割任务。
(1)提出了OneFormer3D - 第一个多任务统一的三维分割框架,允许在通用全视角数据集上训练单一模型以共同解决三个分割任务;
(2)一种新颖的查询选择策略和一种高效的匹配策略,无需匈牙利算法,应结合使用以获得最佳质量;
(3)在三个室内基准数据集中的三维语义、三维实例和三维全视角分割的最新结果:ScanNet、ScanNet200 和 S3DIS。
OneFormer3D的总体方案: 基线组件以蓝色表示,改进内容用红色突出显示。OneFormer3D框架继承自SPFormer(3D实例分割网络),因为它具有直接的流水线、快速推理以及在训练和推理期间内存占用较小的特点。
稀疏3D U-Net提取逐点特征,这些特征通过灵活的池化传递,通过简单地对超点中的特征进行平均,获得超点特征。超点特征作为Transformer解码器的键和值,该解码器还接受可学习的语义和实例查询作为输入。解码器通过交叉注意机制捕获超点信息,并输出一组学习到的核,每个核代表一个单一对象掩码的实例标识(来自实例查询)或语义区域(来自语义查询)。采用分解匹配策略以端到端的方式训练实例核。因此,经过训练的OneFormer3D可以无缝地解决语义、实例和全景分割。
将OneFormer3D用于 3D 目标检测, 通过紧密对齐的 3D 边界框包围预测的 3D 实例。与现有的 3D 目标检测方法进行比较,与强基准CAGroup3D相比,OneFormer3D 的 mAP50 提高了 +4.0,从而在不需要额外训练的情况下实现了 65.1 mAP50 的新SOTA。
将OneFormer3D在ScanNet、S3DIS、ScanNet200 上进行对比。 在ScanNet验证集上,采用统一的方法,在实例、语义和全景分割任务中取得了新的最先进水平。具体来说,与SPFormer和较新的Mask3D相比,实例分割分数分别提高了+2.9 mAP25、+4.4 mAP25 和 +4.1 mAP。此外,OneFormer3D 在 2023 年 11 月 17 日的ScanNet隐藏测试排行榜中得分第一,达到 80.1 mAP50(相对于Mask3D 增加了 +2.1),以及 89.6 mAP25(相对于TD3D增加了 +2.1)。与此同时,OneFormer3D 还超越了 PointTransformerV2,其 mIoU 提高了 +1.2。全景分割的改进也尤其明显:OneFormer3D 在PQ上超过了TUPPer-Map 21.0,达到了 71.2。
这篇文章提出了一种新颖的基于Transformer的框架,OneFormer3D,它统一了三个3D点云分割任务:实例、语义和全景。仅在一个全景数据集上进行训练,OneFormer3D始终优于现有的分割方法,即使它们是针对每个任务分别训练的。作者还确定了现有基于Transformer的3D实例分割方法的弱点,并采用了一种新颖的查询选择和解缠匹配策略来解决这些问题。在对ScanNet、ScanNet200和S3DIS进行的大量实验中,OneFormer3D在所有三个3D分割任务中确立了新的最先进技术。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。