当前位置:   article > 正文

首篇!最全的全景分割综述(RGB图像/医学图像/LiDAR)

全景分割

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【分割】技术交流群

后台回复【分割综述】获取语义分割、实例分割、全景分割、弱监督分割等超全学习资料!

摘要

用于视频分析的图像分割在智慧城市、医疗保健、计算机视觉和地球科学以及遥感应用等不同的研究领域中发挥着重要作用。在这方面,全景分割是最新的杰出成果之一。后者是语义和实例分割融合的结果。显然,全景分割目前正在研究中,以帮助获得视频监控、人群计数、自动驾驶、医学图像分析等图像场景的更细致的知识,以及对一般场景的更深入理解。为此,本文对现有的全景分割方法进行了第一次全面的综述。因此,基于所采用的算法、应用场景和主要目标的性质,对现有全景技术进行了定义良好的分类。此外,还讨论了全景分割在通过伪标记标注新数据集中的应用。接下来,进行消融研究,以从不同角度了解全景方法。此外,还讨论了适用于全景分割的评估指标,并对现有解决方案的性能进行了比较,以了解最新技术并确定其局限性和优势。最后,阐述了当前主题技术面临的挑战以及近期吸引大量关注的未来趋势,这可以作为未来研究的起点。

d3ddc8830054ab7ba153a1f20f62a15f.png

总结来说,本文的主要贡献如下:

  • 在介绍了全景分割技术的背景及其显著特征之后,对不同方面的现有工作进行了彻底的分类,例如用于设计全景分割模型的方法、主题技术和应用场景可以处理的图像数据类型;

  • 然后讨论用于验证全景分割模型的公共数据集,并与不同参数进行比较;

  • 描述了评估指标,并对最新技术中确定的最重要的工作进行了各种比较,以显示它们在不同数据集和各种指标下的性能;

  • 在提供关于未来方向的见解之前,将描述当前已解决的挑战和尚未解决的问题,这些未来方向在近期和远期吸引了大量的研究和开发兴趣;

  • 最后得出了相关的结论和建议,以提高图像分割策略的质量。

语义分割

其中进行密集预测的场景的分割。换一种说法;语义分割是用表示像素类别的对应类标记图像的每个像素的操作。此外,语义分割将图像中属于同一类别的不同区域进行分类。尽管语义分割在2007年首次被提出,当时它成为计算机视觉的一部分,但Long等人在2014年首次利用神经网络对自然图像进行端到端分割后,这一重大突破就开始了[37]。

对于图像分割,空间分析是浏览图像区域以确定每个像素的标签的主要过程。基于CNN的方法,如U-Net、SegNet、全连接网络(FCN)和DecovNet,这些是基本架构,在分割质量方面成功地以可接受的精度分割这些区域。然而,对于语义分割,这是一种复杂的分割,特别是当图像复杂时,这些基本网络的性能不足以标记图像中的大量对象。例如,SegNet网络严重依赖于编码器-解码器架构。相反,其他网络在编码器端具有类似的架构,并且仅在架构的解码器部分略有不同。为了处理信息丢失的问题,最近提出了利用深度卷积特征提取的语义分割方法,该方法使用多尺度特征聚合[38,39,40,41]或端到端结构化预测视角[42,43,44,45,46]。

实例分割

实例分割是基于目标检测任务的增量研究工作。目标(事物)检测任务不仅检测目标,还提供检测目标周围的边界框以指示位置[47]。图像分割是目标检测的另一个步骤,它在精细级别上分割场景中的目标,并为分割的场景中的所有目标提供标签。进化顺序可分为图像分类、目标检测、目标定位、语义分割和实例分割。分割效率指的是计算时间和成本,而准确度指的是以鲁棒性正确分割目标的能力。因此,在准确性和效率之间始终存在权衡。

对于任何计算机视觉方法,可区分特征的选择都至关重要,因为特征是决定方法性能的关键因素。特征抽取器,如SIFT和SURF,最初是在AI引入之前使用的。接下来,特征抽取慢慢地从人工选择的方法发展到完全自动化的DL架构。用于目标检测的一些流行DL网络是VGGNet[48]、ResNet[49,50]、DenseNet[51,52,53]、GoogLeNet Inception[59,60]。在此背景下,CNN架构已被用作某些方法中提取特征的主干,这些特征可用于进一步处理。此外,实例分割必须克服几个问题,包括几何变换、检测较小的目标、遮挡、噪声和图像退化。因此,用于实例分割的广泛使用的架构包括掩码RCNN[61]、RCNN[62、63]、PANet[64]和YOLACT[65、66]。

通常,使用基于区域的两阶段方法[67、68、69、39、70、71]或统一的单阶段方法[72]实现实例分割。如前所述,在效率和准确性之间始终存在折衷。两阶段方法具有更好的精度,而单阶段方法具有更高的效率。与语义分割不同,每个目标都与其他目标不同,即使它们属于同一类。

全景分割

全景分割是实例和语义分割的融合,旨在区分场景中的事物。事实上,全景分割有两类,即thing和stuff。Stuff是指不可数的区域,如天空、人行道和地面。而thing包括所有可数的物体,例如汽车、人等。与实例分割和语义方法不同,在全景方法中,通过给每一个目标赋予不同的颜色,使其与其他目标区分开来,从而对thing进行分割,全景分割允许不同场景组件的良好可视化,并且可以作为包括各种场景部分的检测、定位和分类的全局技术来呈现。这生成了一个全面和实际的场景理解。

全景分割技术能够描述图像的场景内容并允许其深入理解,这有助于显著简化分析,提高性能,并为许多计算机视觉任务提供解决方案。我们可以在这些任务中找到视频监控、自动驾驶、医学图像分析、图像场景解析、地球科学和遥感。全景分割通过实现对特定目标的分析而无需检查图像的整个区域,从而允许这些应用,这减少了计算时间,最大限度地减少了对某些目标的漏检或识别,并确定了图像或视频中不同区域的边缘显著性。为了调查全景分割的发展,关于对things和stuff实现的相关任务,图2中描述了从二值分割和目标检测开始到全景分割结束的图像分割的时间线演变。通常,用于执行每项任务的流行网络也被突出显示。

1cb9d6c8cf013a4e45437c7aefe06526.png

全景分割技术概览

全景分割是计算机视觉的一个突破;它实现了“thing”和“stuff”的组合视图。因此,它代表了图像分割的一个新方向。为了了解最新情况,本节将介绍并深入讨论文献中提出的现有全景分割研究。

a7e6c3f5abb68b2455d2d418168a00ca.png

一些全景分割技术在组合或聚合结果以产生全景分割之前分别利用实例和语义分割。因此,如图3(a)所示,共享主干通过将主干生成的特征用于网络的其他部分来使用。其他框架使用了相同的方法,但使用了实例和语义网络之间的显式连接[73],如图3(b)所示。

大多数提出的全景分割框架使用RGB图像,而其他框架则对医学图像和LIDAR数据执行其方法。本节将根据使用的数据类型讨论现有框架。

RGB图像数据

RGB图像是主要的数据源,其中应用了大多数全景分割算法。这是由于RGB图像在摄像机、图像扫描仪、数码相机、计算机和手机显示器中的广泛使用。此外,大多数提出的全景分割方法都是对RGB图像进行的。例如,在[74]中,提出了一种称为Panoptic-Fusion的全景分割模型,这是一种结合了stuff和thing的在线体积语义建图系统。为了预测背景区域(stuff)的类标签并单独分割任意前景目标(thing),它首先通过融合语义和实例分割输出来预测输入RGB帧的像素全景标签。类似地,在[75]中,Faraz等人专注于提高网络的泛化能力,以从单目RGB输入图像预测每像素深度。已经设计了过多的其他全景方法来分割RGB图像,例如[23,31,76,77,78]。

为了用全景策略分割图像,已经提出了许多框架,首先利用实例和语义分割,然后将每个部分的结果拼接,以获得最终的全景分割结果。一些算法如[23]、[43]、Mask R-CNN[79]、PCV[80]、ESPNet[81]、EfficientPS[82]、Panoptic–MOPE[84]等等。

另一方面,在[39]中,提出了Panoptic-DeepLab,这是一种简单的设计,在训练期间只需要三个损失函数。Panoptic0DeepLab是第一个自下而上的单镜头全景分割,在公共基准测试上获得了最先进的性能,因此它提供了端到端的推理速度。后续工作如[86]、OANet[87]等。

作者在[31]中使用基于Lintention的网络,提出了一种基于两阶段的全景分割方法。与基于两个分离网络的方法相似[85],LintensionNet架构由实例分割分支和语义分割分支组成,其中引入了融合操作以生成最终全景结果。

目标尺度是语义、实例和全景分割方法面临的挑战之一。同一个物体可以用几个像素来表示,在图像中占据很大的区域。因此,具有不同尺度的目标的分割会影响方法的性能。因此,Porzi等人[90]提出了一种基于尺度的全景分割架构。而在[69]中,引入了基于双向学习管道的深度全景分割。其他相关算法如[73]、[91]。

图4说明了使用的四个全景分割网络,而表1和表2总结了每个全景分割框架中使用的主干、特征和数据集。

f2406ad06f3d870217009f4918a3776c.png c62619853aa9069a48aef35e092b35d4.png 3e05903bd66e7d133057cdfcfd348253.png

如前所述,一些全景分割模型通过保持从主干到最终密度图的信息而无需任何显式连接来生成分割掩模。在这种情况下,全景边缘检测(PED)用于解决新的细粒度任务,其中预测填充类的语义级边界以及实例类的实例级边界[93]。这提供了对场景的更全面和统一的理解。接下来,全景边缘网络(PEN)将内容和实例汇集到具有多个分支的单个网络中。而在[70]中,低填充率线性对象和无法识别边界框附近的像素的问题已被考虑在内。因此,可训练和分支的多任务架构已用于对全景分割的像素进行分组。

接下来,[46]中提出了一种全景分割方法,与现有方法相比,该方法提供了更快的推理。显然,使用了全景图像分割的统一框架,该框架使用算盘网络和两个轻量级头部对语义和实例分割进行一次性预测。

另一方面,在[67]中,提出了一种快速全景分割网络(FPSNet),该网络比其他全景方法更快,因为实例分割和合并启发式部分已被称为全景头部的NN模型取代。

在[98]中,提出了一种新的single-shot全景分割网络,其利用密集检测的实时分割。通常,使用无参数掩模构造方法,这降低了计算成本。另一方面,通过建模目标和背景之间的相关性,可以实现全景分割任务中图像的整体理解。为此,[100]中提出了用于全景分割的双向图推理网络(BGRNet)。为了预测一致的语义分割,Porzi等人使用从基于CNN的deep-lab模块生成上下文信息的FPN来生成多尺度特征[41]。

在不统一实例和语义分割以获得全景分割的情况下,Hwang等人[103]利用block和路径集成,从而允许统一的特征图来表示最终的全景结果。在相同的背景下,[104]中提出了一种基于实例和语义分割共享特征图的统一方法(DR1Mask),用于执行全景分割。

根据语义分割,[106]中的作者对目标的实例进行分割,以生成最终的全景分割。该方法首先使用CNN模型分割语义,然后从获得的语义结果中提取实例。全景分割是使用每个阶段的结果之间的连接来创建的。在相同的背景下,使用实例感知像素嵌入网络,[107]中提出了一种全景分割方法。

医学图像

由于医学成像是计算机视觉最有价值的应用之一,不同类型的图像被用于诊断和治疗目的,例如X射线、计算机断层扫描(CT)、磁共振成像(MRI)、超声、核医学成像和正电子发射断层扫描(PET)。在这方面,医学图像分割在计算机辅助诊断系统中起着至关重要的作用。通过为每个像素分配类值并在同一类中分离对象,需要进行实例分割。通常,为每个目标分配一个唯一的ID。另一方面,从图像的形态、空间位置和目标的分布等方面研究和分析生物行为。由于实例分割有其局限性,提出了具有全景结构的cell R-CNN。通常,实例分割模型的编码器用于学习通过联合训练语义分割模型而实现的全局语义级特征[110]。

在[111]中,重点是用于细胞核分割的组织病理学图像,为此提出了CyC–PDAM架构。首先设计了一种基线架构,该架构基于外观、图像和实例级自适应实现无监督域自适应(UDA)分割。然后,设计了一种核修复机制来移除合成图像中的辅助目标,这被发现可以避免错误的FN预测。接下来,引入了一个语义分支,使用语义和实例级别的自适应来适应前景和背景方面的特征,其中模型在全景级别学习域不变特征。接下来,为了减少偏差,引入了重新加权任务。该方案已在三个公共数据集上进行了测试;发现其在很大程度上优于现有技术的UDA方法。该方法可用于其他应用,其性能接近全监督方案。

此外,读者可以参考许多其他全景分割框架,这些框架已开发用于分割医学图像并实现不同的目标,例如病理图像分析[112]、前列腺癌检测[113]和全景X射线图像中的牙齿分割[114]。

LiDAR数据

LiDAR是一种类似于RADAR的技术,可以创建垂直精度几乎为10cm的高分辨率数字高程模型。LiDAR数据因其准确性和鲁棒性而备受青睐,其中,LiDAR空间上的目标检测[115、116、117、118]和里程计[119、120、121]已经有较大进展,重点已转向LiDAR的全景分割。因此,SematicKITTI数据集是KITTI的扩展,包含不同环境下的注释激光雷达扫描,汽车场景[122]已被广泛使用。例如,在[123]中,结合语义分割和3D目标检测器的两种基线方法用于全景分割。类似地,在[124]中,使用Point-Pillars目标检测器来获取每个对象的边界框和类,并部署KPConv[125]和RangeNet++[126]的组合来执行每个类的实例分割。分别训练和测试两个基线网络,并在最后一步合并结果以生成全景分割。然后使用隐藏测试集对基于LiDAR的全景分割进行在线评估。

接着,当使用CNN架构时,Hahn等人[127]采用了一种截然不同的对比方法来聚类目标片段。由于集群不需要像CNN那样的计算时间和能量,因此[127]中采用的模型即使使用CPU也可以部署。然而,已经在SemanticKITTI数据集上进行了评估,并将PQ、SQ、RQ和mIoU用作评估指标。更进一步,在[128]中,Gasperini等人(即Panoster)实现了一种基于Q学习的LiDAR点云全景分割聚类方法。而在[123]中,基于结合基于LiDAR的语义分割和另一个有助于用实例信息丰富分割的检测器,实现了两阶段方法。此外,在[129]中,Milioto等人使用了统一的方法,其中提出了端到端模型。具体地说,数据以距离点表示,并使用共享主干提取特征。在使用两个解码器重建全景图像和偏移的误差估计之前,在主干的末端使用图像金字塔。其他相关算法PanopticTrackNet[130]、EfficientLPS[131]、DSNet[132]可以参考具体论文。

应用

全景分割系统的开发有助于各种任务和应用。因此,可以发现全景分割在提高性能方面发挥重要作用的几个案例场景。图5总结了涉及全景分割的一些主要应用。

5b1458affa9ffc1af4db0e4d585b0a06.png

目标检测

主要引入了全景分割,以使目标检测过程更易于管理和准确[23]。目标检测是计算机视觉和图像处理的重要技术。它指的是在数字图像和视频中检测特定类别的语义目标(例如人类、建筑物或汽车)的实例。全景分割已经受到了新的和鲁棒的目标检测方案的显著关注[98,134,135]。

医学图像分析

医学图像的分析和分割是基于医学图像中感兴趣目标分割的重要应用。自从全景分割出现以来,人们对在医学领域使用不同的全景模型产生了极大的兴趣[136]。例如,在[137]中,考虑了分割重叠核的问题,并提出了用于核分割的弯曲损失正则化网络。高惩罚被保留给具有大曲率的轮廓,而小曲率被保留为具有小惩罚并用作弯曲损失。这有助于最大限度地减少弯曲损失,并避免生成被多个核包围的轮廓。MoNuSeg数据集用于使用不同的度量来验证该框架,包括聚合Jaccard索引(AJI)、Dice、RQ和PQ。该方法声称使用多个公共数据集会超过其他DL方法。

自动驾驶

自动驾驶汽车是全景分割的关键应用领域。为了有效地构建自动驾驶系统,需要精细的场景理解和更好的场景感知。从LiDAR、摄像头和雷达等硬件传感器收集的数据对实现自动驾驶汽车的可能性至关重要[140、133、141]。此外,DL和计算机视觉的进步导致传感器数据用于自动化的使用增加。在这种情况下,全景分割可以帮助准确分析图像的语义内容(其中像素表示汽车与行人与可驾驶空间)和实例内容(其中,像素表示同一辆汽车与其他汽车对象)。因此,规划和控制模块可以使用来自感知系统的全景分割输出,以更好地通知自动驾驶决策。例如,详细的物体形状和轮廓信息可以帮助改进物体跟踪,从而为转向和加速提供更准确的输入。它还可以与密集(像素级)目标距离估计方法结合使用,以允许场景的高分辨率3D深度估计。通常,在[142]中,NVIDIA开发了一种有效的方案,基于单个、多任务学习DNN执行相机图像的像素级语义和实例分割。该方法实现了基于全景分割的DNN的训练,其目的是将场景理解为整体而不是分段。因此,在嵌入式车载NVIDIA DRIVE AGX平台上,只有一个端到端DNN用于提取所有相关数据,同时达到约5ms的每帧推断时间。

无人机遥感

全景分割是无人机遥感平台的基本方法,它可以实现道路状况监测和城市规划。具体而言,近年来,全景分割技术比当前的语义分割技术提供了更全面的信息[143]。例如在[144]中,全景分割算法的框架被设计用于无人机应用场景,以解决一些问题,即无人机的大目标场景和小目标,这导致分割结果缺少前景目标,分割掩模质量较差。通常,在特征提取网络中引入可变形卷积以提高网络特征提取能力。此外,MaskIoU模块被开发并集成到实例分割分支中,以增强前景目标掩码的整体质量。此外,无人机收集了一系列数据,并将其组织到UAV-OUC全景分割数据集中,以测试和验证航空图像中的全景分割模型[144]。

数据集标注

数据标注是指对数据或图像进行分类和标记,以验证分割算法或其他基于AI的解决方案。全景分割也可用于实现数据集注释[145146]。通常在[147]中,全景分割被用于帮助进行图像标注,这使用协作者(人类)和自动助手(基于全景分割)共同对数据集进行注释。人类注释者的动作作为上下文信号,智能助手对图像的其他部分做出反应并进行注释。而在[92]中,提出了一种弱监督全景分割模型,用于联合进行实例分割、语义分割和标注数据集。但是,这不会检测到重叠的实例。它已经在Pascal VOC 2012上进行了测试,其监督性能高达95%。接着,在[76]中,研究了用于标注数据集的全景分割的工业应用。3D模型用于生成工业建筑的模型,这可以改进远程执行的库存,在那里可以实现目标的精确估计。例如,在核电站现场,由于设备位置可以在进入现场之前首先使用收集的全景图像的全景分割来分析,因此可以显著降低维护成本和时间。所以,这被认为是利用全景分割技术实现大规模工业自动化的巨大突破。此外,[143]中提出了一个名为VALID的综合虚拟航空图像数据集,该数据集由6690张高分辨率图像组成,这些图像通过全景分割进行注释,并分为30类。

数据增强

全景分割的另一个有前途的应用是数据增强。通过使用全景分割,可以设计仅在像素空间中操作的数据增强方案,因此不需要额外的数据或训练,并且实现起来计算成本低[148149]。例如,在[148]中,提出了一种全景数据增强方法,即PanDA。具体而言,通过对不同PanDA augmented数据集的现有模型进行再训练(使用一组冻结的参数生成),除了跨模型主干、数据集域和尺度的检测之外,在实例分割和全景分割方面取得了高性能的进展。此外,由于看起来不真实的训练图像数据集(由PanDA合成)的效率,有必要重新思考图像真实性的需求,以确保强大和稳健的数据扩充。

其他

值得注意的是,全景分割可用于其他研究领域,如生物学和农业,用于分析和分割图像。这是[72]的情况,其中全景分割用于猪的行为研究。尽管评估不会直接影响动物的正常行为,例如食物和水的消耗、乱扔垃圾、互动、攻击行为等。通常,物体和关键点检测器用于单独检测动物。然而,没有追踪到动物的轮廓,这导致了信息的丢失。全景分割通过使用不同的网络头和后处理方法的神经网络(用于语义分割)有效地分割了单个猪,以克服这个问题。实例分割掩码已用于估计动物的大小或重量。即使有脏镜头和遮挡,作者声称也达到了95%的准确率。此外,全景分割可用于可视化战场上隐藏的敌人,如[109]所述。

公开数据集

总结和可视化如表3和6所示。

96ca345a24688398aa00dd51d45e5909.png ea3099382ab3bb321257b029c75e2190.png

结果分析和讨论

讨论

Cityscapes上的评估

Cityscapes是实验全景分割解决方案效率的最常用数据集。表4给出了使用该数据集和评估指标的方法的详细报告。此外,考虑到用于评估的数据集,给出了所获得的结果。虽然使用val集报告结果是很常见的,但一些作品已经在Cityscapes数据集的测试开发集上报告了结果。所有模型都具有代表性,表4中列出的结果已发表在参考文件中。此外,最近三年,所有这些作品都已发表,如WeaklySupervised(2018)[92]、Panoptic-DeepLab(2019)[105]和EfficientPS(2020)[82]。

6404c819f749d176290dfe22a22b56e7.png

COCO上的评估

表5表示使用现有全景分割技术获得的一些结果。与Cityscapes上的性能演示类似,论文展示了COCO不同工作中提供的结果,包括使用测试开发集和值集测试的结果。

ecf364fd995219a9af6bd888dd0a3377.png

Mapillary Vistas、VOC 2012和ADE20K上的评估

表6总结了在Mapillary Vistas和Pascal VOC 2012数据集下的其他框架中获得的结果。

3dda2a20071ecdc85d51ea9421c43031.png

使用AP和mIoU度量进行评估

表7显示了参考不同数据集(包括Cityscapes、COCO、ADE20K、Mapillary Vitas、KITTI和Semantic KITTI)的AP和IoU度量的几种现有全景分割工作的获得结果。

8d2e82c6d44725dcd3d9060e7d51263d.png

LiDAR数据上的评估

SemanticKITTI数据集的验证集和测试集已用于评估和研究现有方法的性能,如表8所示。

d47bed9ba280e769b80aa84bbe827569.png

医学图像上的评估

表9显示了使用两种场景的每种方法的性能。

58b9f47d8d25f9f1ef953695f11a9386.png

挑战和未来趋势

当前挑战

如前所述,全景分割是语义和实例分割的组合,而语义分割是场景的上下文像素级标记,实例分割是该场景中包含的目标的标记。对于基于语义的像素,通过确定该像素属于哪个类别来对像素进行分类,其中实例分类利用目标检测的结果,然后进行精细级别分割,以在一个同质标签中标记目标像素。

语义分割可以包括将stuff和thing分割在一起,同时用与目标类型对应的相同颜色类标记这些内容。而实例分割使用不同的颜色类来分离这些目标。与所有计算机视觉任务类似,许多挑战可能会阻碍任何实现最佳结果的方法。从这个角度来看,已经确定了不同的限制,例如目标之间的遮挡、目标的比例变化、照明变化以及最后但至少是目标的相似强度。为此,本文试图总结当前面临的一些挑战,如下所示:

  • 目标尺度变化:这是所有计算机视觉任务的限制之一,包括目标检测、语义、实例和全景分割。大多数提出的模型都试图作为第一步解决这个问题。通常现有方法在小目标上不太有效,而对于包含许多缩放目标的场景,用于训练的可用标注数据集是不够的[169170]。在图像中检测小物体是非常困难的,而且当物体很小时,尤其是当图像被扭曲和遮挡时,更难将它们区分为物体和物体;

  • 复杂背景:对于图像分割,当场景复杂时,许多东西(stuff, things)可以被视为其他东西(stuff, things)。捕获的图像可以包括许多数据集中未标注的(stuff, things),这使得人和其他目标的外观相似[171];

  • 杂乱场景:场景中动态目标之间的完全或部分遮挡也是大多数全景分割方法的限制之一。这尤其适用于实例(事物)分割的情况,这是全景分割中的一个重要部分,可能会受到遮挡的影响。因此,这导致分割的“事物”的质量和数量大大降低;

  • 天气变化:使用无人机进行的监控可能会受到各种天气条件和环境变化的影响,如雨、雾和雾。因此,一旦全景分割算法应用于现实场景,这可能会降低其准确性[172];

  • 数据集的质量:这对于提高全景分割模型的性能非常重要。尽管有几个可用的数据集,但在标注它们方面仍存在困难[173174175]。而全景分割和分割通常需要由人类专家标注或验证数据;

  • 需要一种有效的合并启发式方法来合并实例和语义分割结果,并产生最终的全景分割可视化结果。合并启发式的准确性通常决定了模型的性能。然而,在这种情况下,一个关键问题是由于合并启发式算法而增加了计算时间。

  • 计算时间:使用DL模型进行全景分割的训练时间通常非常昂贵,这是因为这些模型的复杂性,也因为模型的性质,即单个或分离。一般来说,分离模型(全景的实例语义)比统一模型花费更多的训练时间,然而,全景SQ更好。

未来趋势

在不久的将来,更多的研究工作可以集中在开发端到端模型,以同时执行实例和语义分割。这将减少对合并启发式的需求,因为合并也会作为衡量模型性能的一个因素。替换合并启发式方法可以进一步提高模型的计算时间[67]。

可以更加专注于检测较小的物体,去除不必要的小物体和其他杂项物体。此外,使用精确的边缘检测方法,可以将事物之间的分离用于良好的实例分割。这也将有助于提供一些实时全景分割技术。目前,目前部署的全景分割实时应用程序数量非常有限。因此,今后关注这一观点至关重要。此外,提高全景分割模型的性能并拓宽其应用是相关的未来方向,尤其是在数字健康、实时自动驾驶、场景重建和3D/4D点云语义分割方面。

医学影像学

在不久的将来,全景分割被寄予了很大的希望,以改进医学图像分割。事实上,从医学图像中对癌细胞的无定形区域进行全景分割可以帮助医生检测和诊断疾病以及肿瘤的定位。这是因为不同癌细胞的形态学线索对于病理学家确定癌症分期非常重要。在这方面,全景分割有助于获得定量形态学信息,如[112]所示,其中提出了用于全景分割的端到端网络来分析病理图像。此外,虽然大多数现有的细胞分割方法基于语义级或实例级细胞分割,但全景分割方案统一了目标的检测和定位,并将像素级分类信息分配给具有大重叠的区域,例如背景。这有助于他们超越最先进的技术。

实时自动驾驶

由于自动驾驶对日常生活以及城市规划和交通技术的影响,自动驾驶已成为一项最新的进步。这鼓励了研究人员在过去的十年中为提高自动驾驶汽车的性能提出了不同的挑战。利用现有技术,特别是人工智能,例如神经网络和DL,有助于克服自动驾驶的许多限制。将这些技术与包括相机和激光雷达在内的不同传感器相结合,有助于场景理解和物体定位,这是自动驾驶的关键任务[176]。此外,通过了解和定位汽车周围的物体以及汽车行驶的表面,可以确保驾驶安全[91]。

在这种情况下,全景分割可以显著有助于识别这些物体(thing),例如,除了对行驶道路(stuff)进行分割之外,还可以读取标志并检测横穿道路的人,特别是在繁忙街道上[177]。图7说明了自动驾驶车辆全景分割的适用性示例。这也可以通过使用适当的计算板来实现,该计算板能够基于DL来训练全景分割模型,从而更好地将场景理解为整体而不是分段。

4530feb16a8f8ace11ebc61ade0442d7.png

场景重建

实时动态场景重建是视觉计算领域的热点之一。它的好处可以在真实世界场景理解上找到,也可以在所有当前应用中找到,包括虚拟现实、机器人等。使用基于3D的传感器,如激光雷达或相机数据,通过深度学习技术,场景重建变得更容易。现有的多视图动态场景重建方法要么在具有已知背景或色度键工作室的受控环境中工作,要么需要大量摄像机[179],[180]。由于复杂场景的简化以及使用颜色类的分离,全景分割可以对场景重建方法进行关键改进,从而理解场景的上下文,然后对其进行精确重建,如图8所示[181],利用3D激光雷达数据的全景分割也使3D形状的重建更容易,这与真实场景更相似。

c54862cd8f569516fafe612cf9e3e538.png

3D/4D点云语义分割

3D/4D点云语义分割(PCSS)是一项前沿技术,由于其在计算机视觉、遥感和机器人等不同研究领域的应用,由于深度神经网络提供了新的可能性,它吸引了越来越多的关注。3D/4D PCSS是指语义分割的3D/4D形式,其中使用3D/4D空间中的规则/不规则分布点,而不是2D图像中的规则分布像素。然而,与2D图像中的视觉基础相比,3D/4D PCSS由于稀疏和无序的特性而更具挑战性。为此,使用全景分割可以有效地提高3D/4D PCSS的性能。因此,基于来自自然语言的预测目标类别,[182]中的作者提出了基于全景的模型,即InstanceRefer,以首先从点云上的全景分割中过滤实例,以获得少量候选。随后,他们在使用自适应置信融合定位最相关的候选之前,对每个候选进行了协作整体场景语言理解。这有助于InstanceRefer有效地优于现有技术。

结论

全景分割是计算机视觉的一个突破,它通过将物体分成不同的类别来分割“thing”和“stuff”。全景分割在各个研究和开发领域中开辟了若干机遇。需要区分物体的东西,例如自动驾驶、医学图像分析、遥感图像映射等。为了达到最新水平,论文根据作者的知识,对全景分割技术进行了第一次广泛的批判性调查,该综述是按照定义明确的方法设计的。因此首先介绍了全景分割技术的背景。接下来基于所采用方法的性质、分析的图像数据类型和应用场景,对现有全景分割方案进行了分类。此外,还讨论了用于验证全景分割框架的数据集和评估指标,并将最相关的工作制成表格,以明确比较每个模型的性能。

在此背景下,很明显一些方法分别执行实例分割和语义分割,并将结果融合以实现全景分割,而大多数现有技术作为统一模型完成了该过程。尽管如此,研究界对全景分割的高度重视导致了各种研究文章的发表。Cityscapes数据集上69%的PQ和COCO数据集上50%的PQ是所有模型的最佳结果。这表明,仍需开展大量工作来改进其绩效并促进其实施。

在全景分割的应用方面,人们倾向于自动驾驶、行人检测和医学图像分析(特别是使用组织病理学图像)。然而,新的应用机会正在出现,例如在军事部门,全景分割可以用来可视化战场上隐藏的敌人。另一方面,尽管全景分割的实时应用还很少,但人们对这一方向的兴趣越来越大。全景分割最显著的特征之一是它能够注释数据集,这显著减少了标注过程所需的计算时间。

5963d60d9395b29ec42e5e8b5a78a329.png

a9b47774436e2382b7e4e8d0ee73c9d7.png

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、硬件配置、AI求职交流等方向;

e63c054e8158840d09059cf64ea44e5e.jpeg

添加汽车人助理微信邀请入群

备注:学校/公司+方向+昵称

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/354001
推荐阅读
相关标签
  

闽ICP备14008679号