当前位置:   article > 正文

点云补全综述 Comprehensive Review of Deep Learning-Based 3D Point Clouds Completion Processing and Analys

点云补全综述

点云补全(点云完成)综述(Point Clouds Completion)

By 人工智能社区 www.studyai.com

Comprehensive Review of Deep Learning-Based 3D Point Clouds Completion Processing and Analysis

Ben Fei, Weidong Yang, Wenming Chen, Zhijun Li, Yikang Li, Tao Ma, Xing Hu, Lipeng Ma

https://arxiv.org/abs/2203.03311

摘要(Abstract)

点云补全是由部分点云产生的一个生成和估计问题,在三维计算机视觉的应用中起着至关重要的作用。深度学习(DL)的进展显著提高了点云补全的能力和鲁棒性。然而,补全的点云的质量仍需要进一步提高,以满足实际应用。因此,本工作旨在对各种方法进行全面调查,包括基于点的、基于卷积的、基于图的和基于生成模型的方法等。本调查总结了这些方法之间的比较,以激发进一步的研究见解。此外,本文总结了常用的数据集,并说明了点云补全的应用。最后,我们还讨论了这个迅速扩展的领域中可能的研究趋势。

介绍(Introduction)

随着激光雷达、激光或RGB-D扫描仪等3D扫描设备的普及,点云变得更容易捕获,目前在机器人、自主驾驶、3D建模和制造等领域引发了大量研究。然而,由于遮挡、反射、透明度以及设备分辨率和角度的限制,这些设备直接采集的原始点云主要是稀疏和局部的。因此,从部分观测中生成完整的点云对于推动下游应用至关重要。

点云完成的有效性在于其在各种计算机视觉应用中的独特和关键作用。3D重建。 完整三维场景的生成是许多计算机视觉任务的基础和重要技术,包括自主驾驶中的高分辨率三维地图重建、机器人中的三维重建和地下采矿。例如,机器人应用中的点云完成可以通过构建3D场景来帮助路线规划和决策。此外,在地下采矿空间进行大型三维环境重建,以准确监控采矿安全。3D检测。 3D对象检测依赖于完整的点云来保持最先进的(SOTA)性能。例如,激光雷达捕捉到的远处的汽车往往稀疏,往往难以检测。3D形状分类。 对于3D形状分类,最终需要从部分观测中恢复完整的点云。部分点云表示对象的一小部分,通常很难识别。由于点云完成在许多实际的计算机视觉应用中起着至关重要的作用,因此迫切需要对点云完成进行广泛的研究。

然而,对点云完成和下游任务情况进行了一些调查,同时迫切需要综述点云完成深度学习的最新进展。为了促进点云完成技术在工业界和学术界的发展,我们通过总结近年来(2017-2021)点云完成的快速增长进行了全面回顾,主要包括当前的深度学习方法。此外,我们还比较了各种深度学习技术。

在这里插入图片描述
在过去几年中,研究人员尝试了许多方法来解决深度学习中的这个问题。点云完成的早期尝试试图通过体素定位和3D卷积将成熟的方法从2D完成任务转移到3D点云。然而,随着空间分辨率的提高,这些方法的计算成本很高。随着PointNet和PointNet++的巨大成功,直接处理三维坐标已成为基于点云的三维分析的主流。该技术进一步应用于点云完成的许多开创性工作,其中设计了一种编码器-解码器方案来生成完整的点云。近年来,许多其他方法如基于点的、基于卷积的、基于折叠的、基于图的、基于生成模型的和基于变换器的方法如雨后春笋般涌现,并取得了显著成果(图1)。

本文的主要贡献为:

  • 据我们所知,这是第一次系统地涵盖几乎所有点云完成DL方法的调查。
  • 本文介绍了点云完成的最新进展,以及它们的方法和贡献。
  • 本文对一些公共数据集上的现有DL方法进行了系统比较,并给出了紧凑的结论和深入的讨论。
  • 我们将在本调查结束时讨论基于DL的点云完成的未来研究,以促进该领域的改进。

造成点云残缺的原因(REASON FOR MISSING POINTS)

在数据采集过程中,3D激光扫描仪将受到被测对象特性、测量方法和环境的影响,不可避免地导致点云丢失(图2)。
在这里插入图片描述
例如,3D扫描仪在扫描过程中的稳定性也对扫描点云有特殊影响。脚手架、机械结构和扫描仪的连续旋转不可避免地导致机械抖动,这会影响采集点云位置与实际待测对象之间的回声和偏差。图3总结了丢失点云的原因。
在这里插入图片描述
数据采集完成后,点云还需要进行一系列处理,如点云去噪、平滑、配准和融合。同时,这些操作将显著加剧点云的缺失。这不仅会影响数据完整性并导致拓扑错误,还会影响点云重构、三维模型重建、局部空间信息提取和后续处理的质量。

点云补全的挑战性( CHALLENGES)

结构化信息之挑战

完整点云的重建具有挑战性,因为完成任务所需的结构信息与点云的无序和非结构化性质背道而驰。现实世界中的三维对象点云可以被视为一组低级和高级配置,包括曲面、语义部分、几何元素等。三维对象点云有许多不同的表示,被视为点组的集合。现有的点云生成框架要么在其设计的解决方案中排除结构,要么假设并执行特定的结构/拓扑,以生成3D对象的完整点云,例如一组曲面或流形。因此,学习点云的结构特征对于更好地完成点云变得至关重要。

细粒度完整形状之挑战

3D形状完成应使用现有方法无法捕获的关系结构信息(如几何对称性、规则排列和表面平滑度)重建合理的细粒度完整点云。尽管有几项工作已经通过迭代细化、全局特征和局部特征的集成、跳跃连接、残差连接等充分利用了结构信息,但应更多地关注细粒度完整形状的生成。

因此,本次综述将调查SOTA算法的完成性能,并讨论它们在应对这两个重大挑战时使用的解决方案。

数据集(Datasets)

至于3D形状完成,数据集可分为两类:人工数据集和真实世界数据集(表一)。研究最多的四个数据集如下:
在这里插入图片描述

  • ShapeNet:源自PCN的计算机辅助设计(CAD)数据集,共包含8个特定类别的30974个3D模型。真实点云由16384个均匀采样的表面组成。
  • KITTI:数据集是通过Velodyne激光扫描仪收集的。里程计数据集最初用于评估立体匹配的性能,包括激光雷达点云、立体序列和真实姿态。它包含22个立体序列,其中训练集包括11个具有ground-truth轨迹的序列(id 00-10),而评估集包含11个不具有ground-truth轨迹的序列(ID11-21)。
  • ModelNet40:一套全面的3D CAD模型。其对象包括40个类别和13356个模型。
  • Completion3D:基于从ShapeNet数据集导出的子集评估形状完成方法的在线平台。与PCN数据集不同,输入和ground-truth点云的分辨率均为2048点。

除了上述数据集之外,最近还提出了Shapenet 34/55和MVP数据集,以尽可能接近真实世界对象,增加对象的种类和数量、不同的视点和不同程度的缺陷。

评价准则(Metrics)

对于三维点云完成,CD距离(Chamfer Distance)和EMD距离(Earth Mover’s Distance)是最常用的性能标准。CD试图找到两组点之间的最小距离,而EMD解决了一个优化问题。
在这里插入图片描述
CD表示输出的预测点云S1和完整点云S2之间最近点的平均距离。

在这里插入图片描述
在这里插入图片描述
PCN提出了保真度误差(FD)、一致性(Consistency)和最小匹配距离(MMD)作为评估指标。保真度(FD)用于测量输入保留的程度,计算输入点与输出中相应最近邻点之间的平均距离。MMD用于测量模型输出重构典型汽车的程度。一致性(Consistency)旨在估计模型输出与输入变化的一致性。
在这里插入图片描述
密度分布的差异
在这里插入图片描述

方法梳理(Methods)

根据点云完成和生成所采用的网络结构,现有架构可分为基于点、基于图、基于卷积、基于生成模型和基于变换的方法。几乎所有的里程碑贡献都得到了清晰的说明 在图4和图5中。由于大多数作品都是混合方法,我们根据它们所述的亮点对它们进行分类。

在这里插入图片描述
在这里插入图片描述

A. Point-based methods

这些基于点的方法通常通过利用多层感知器(MLP)独立地建模每个点。然后,由于点云的变换不变性,通过对称函数(如最大池化)聚集全局特征。而整个点组中的几何信息和相关性仍然没有被完全考虑。作为处理特征的常用方法,本节中我们仅回顾主要使用基于点的网络的方法。

前期工作

由PointNet[11]首创,由于其简洁且不可忽略的表示能力,一些工作使用MLP来处理和恢复点云。

PointNet++[12]和TopNet[17]结合了分层结构,以考虑几何结构。

PointNet++提出了两个集合抽象层,可以智能地聚合多级信息,而TopNet提出了一种新的解码器,可以在不假设任何特定结构或拓扑的情况下生成结构化点云。

受PointNet和PointNet++的启发,Yu等人[30]提出了PU-Net, 基于亚像素卷积层(重塑)的特征缩放来学习多尺度特征。缩放恢复方法在提取的特征上使用1x1核进行卷积。然后,将扩展特征分解并重构为一组上采样点。并利用联合损失函数将生成的点云均匀分布在潜在表面上。然而,PU-Net主要用于从稀疏点云聚类生成单个密度更高的点云,而不是完成点云。它不能填充大洞和缺失的部分,也不能向点云的重采样部分添加有意义的点。

为了减轻MLP带来的结构损失,提出的AtlasNet[13]和MSN[22]通过评估一组参数曲面元素重构完整输出,从中可以生成完整的点云。具体而言,AtlasNet[13]在单位正方形中获取一个2D点的额外输入,并将其应用于在表面上生成一个点。因此,输出是平面的连续图像。该方法可以重复多次,以从多个表面元素的组合重建3D形状。MSN[22]引入了基于变形的解码器,该解码器可以将单位正方形变形为聚集到粗点云中的一组表面元素。

PCN-drived methods

Hebert等人[18]首次提出了一种基于学习的形状完成方法,即点云完成网络(PCN)。与现有方法不同,PCN直接处理原始点云,不需要任何结构假设(如对称性)或底层形状的注释(如语义类)。
它具有解码器设计,允许生成细粒度的完成,同时保持少量参数。

通过结合PCN和逐点卷积,Xu等人[31]设计了FinerPCN,通过考虑局部信息和减少结构模糊,以从粗到细的方式生成完整和精细的点云。

之后,Zhang等人[32]提出了一种骨架桥接点云完成网络(SK-PCN)。SK-PCN具有预测学习全局信息的3D骨架。然后,通过使用骨架点的位移来完成曲面。

在MSPCN中,肖等人[33]使用一系列上采样模块来重构细粒度输出,并用关键集监督每个阶段,以生成具有更多信息的输出,并为下一阶段提供有益的中间成分。此外,他们还提出了一种方法,通过将选定点与最大池化和体素下采样点相结合,来识别关键集(MVCS)以进行监督。该MVCS可以考虑重要特征和整体形状。

End-to-end mechanism

在基于点的方法中,端到端方式在网络架构中得到了广泛的应用。
在这里插入图片描述

在编码解码器方案(图6)中,完成架构中的编码器的目的是提取全局三维形状特征和每个点的区域特征。同时,解码器生成一个完成点云并对其进行细化。

Stilla等人[34]设计了一个S2UNet网络,以端到端的方式从车辆应用中的稀疏点云重建更均匀和精细的细节结构。值得注意的是,他们采用上采样方法来生成更均匀的点云。
此外,他们设计了ASFM-Net[35],其中非对称Siamese自动编码器(AE)生成粗略但完整的输出,接下来的细化单元旨在恢复具有细粒度细节的最终点云。

门多萨等人[36]提出了一种端到端模式的网络:缺失部分预测网络和合并细化网络。该方法预测和集成缺失的部分,同时保留现有的几何形状和细化细节。Miao等[37]提出了一种保留形状的补全网络,通过设计编解码方案来保持三维形状,恢复重建的三维形状的精细尺度信息。 该保形网络可以学习全局特征,并集成具有不同方向和尺度的相邻点的区域信息。在解码过程中,信息将被融合成潜在向量。

Liao等人[38]提出了一种稀疏到密集的多编码器神经网络(SDME-NET),以端到端的方式完成,同时保留了三维形状的细节。值得注意的是,缺陷点云将在两个阶段中完成和细化,从稀疏到密集。在第一阶段,他们基于两层点网生成了粗糙但完整的结果。在第二阶段,他们使用PointNet++对第一阶段的稀疏结果进行编码和解码,得到一个高密度、高保真的点云。

此外,还提出了两种特征组合策略,利用多尺度特征的功能,整合不同的信息来分别表示给定的部分和缺失的部分。全局和局部特征聚合(GLFA)和残差特征聚合(RFA)被称为[39]。这两种方法代表了这两种类型的特征,并利用它们的组合[39]恢复坐标。此外,还设计了一个细化模块,以防止生成的点云的不均匀分布和异常值。

鉴于场景由许多对象组成,赵等人[40]设计了一种局部点云完成方法,该方法主要强调两个对象非常接近且上下文相关的配对场景。并且设计了一个网络来编码各个形状的几何结构和成对场景中不同对象之间的空间关系。他们采用了一种双路径方案,通过对不同补全序列之间的一致性损失进行监测。这种方法可以处理物体相互严重遮挡的复杂情况。

为了解决具有挑战性的高密度三维点云补全问题,Li等人[41]提出了一个框架来首先执行端到端低分辨率恢复,然后进行patch-wise噪声感知上采样。该方法通过解码完整但稀疏的形状、迭代细化、对称保持可信信息和补丁上采样,实现高保真密集点云补全。

最近,Huang等人[42]设计了一个由三个模块组成的递归前向网络(RFNet),其中有递归特征提取(RFE)模块、前向致密完成(FDC)模块和原始形状保护(RSP)模块。

RFE从不同重复级别的不完整点云中提取多个全局特征,而FDC以从粗到细的流水线生成输出。此外,RSP引入了原始不完整形状的细节,以细化完成结果。此外,提出了采样CD距离以更好地捕捉模型的形状,并提出了新的平衡扩展约束以限制从粗到细的扩展距离。

Attention-assited methods

注意机制是一种自适应学习信息的灵活机制,被积累的重要信息被赋予更高的权重。

通过保持部分点云的空间排列,设计了三维点云胶囊网络( 3D-PointCapsNet)[43],利用自动编码器处理稀疏的三维点云。3D胶囊网络的创建来自于统一的、通用的3D自动编码器。如图7所示,胶囊网络选择了一个有前途的方向,其中大量卷积滤波器通过动态路由实现胶囊集的学习。

在这里插入图片描述
与编码器-解码器架构集成,PUI-Net[44]具有利用多个级联注意转换单元提取特征,并在扩展前连接多级特征的优点。利用提取的判别特征,利用非区域特征扩展单元生成细粒度点云的密集特征图。

Li等人[45]提出了一个密集的点云补全模型(N-DPC),它将自注意单元与局部特征和全局特征的融合相结合。

Sun等人[46]提出了一种具有自注意的自回归网络,它循环运行,每个点根据预先生成的条件分布进行采样,允许充分利用点间相关性。

View-assisted methods

根据图像模态的优点,解决点云完成问题的关键挑战是有效地整合各方面的特征。这些特征可能来自单视图图像的不完整和全局形状信息的姿态和区域细节所带来的(图8)。
在这里插入图片描述
作为传感器融合网络,Zhang等[47]提出了视图引导架构ViPC。ViPC从一个额外的单一视图图像中检索缺失的全局形状信息。ViPC的主要贡献在于“动态偏移预测器”,它可以细化粗输出。

Zwicker等人[48]提出了一种多视图一致性推理方法,以加强基于视图的三维形状补全中的几何一致性。定义了一种推理优化的多视点一致性损失算法,该算法可以在没有地面真实监督的情况下实现。

此外,在ME-PCN[49]中利用深度扫描使网络对形状边界敏感,使ME-PCN能够在保持局部拓扑结构一致的同时恢复丰富的表面细节。

为了利用来自同一物体的几个部分观测结果来估计三维标准形状的6自由度姿态,Gu等人[50]提出了一种弱监督方法来解决这个问题。在训练过程中,网络利用多视图几何约束联合优化标准形状和姿态,可以在单一部分输入的条件下推导出完整的结果。

然而,基于点的模型也有一些局限性。

  • 基于点的网络(The point-based network)主要处理排列问题。虽然基于点的方法在局部水平上独立地处理点以保持排列的不变性,但这种独立性忽略了点和它们的邻居之间的几何关系。它有一个基本的局限性,导致了局部特征的丢失。
  • 大多数基于点的方法都以一种从粗到细的方式工作。他们正在努力重建对象的细节,主要有两个原因:1)从全局嵌入中创建的粗输出丢失了三维形状的高频信息;2)第二阶段作为一个点上采样函数(point up-sampling function),无法合成复杂的拓扑。
  • 基于点的模型直接处理点,并具有广泛的计算能力,在大型场景中不如基于体素的方法。

B. Convolution-based methods

受卷积神经网络(CNNs)在二维图像上的巨大成功的鼓舞,一些工作尝试利用三维CNNs来学习三维点云的体素化表示。然而,将点云转换为3D卷积将会带来量化效应:(1)细节的丢失;(2)不足以表示细粒度的信息。因此,据我们所知,一些工作直接将CNN应用于不规则、局部和缺陷点云上进行三维形状补全。

前期工作

在点云的处理方面,一些贡献发展了作用于点云转换的离散三维网格的CNN。

Hua等人[51]在规则的三维网格上定义了卷积核,其中这些点在同一网格中被给予相同的权值。

PointCNN[52]通过X-conv变换实现了排列不变性。通过X-conv变换,PointCNN[52]实现了排列不变性。

除了离散空间上的CNN外,还有几种方法定义了连续空间上的卷积核(图9)。

在这里插入图片描述
Thomas等人[53]设计了一个刚性和可变形的核卷积(KPConv)模块,利用一个可学习的核点集合来处理三维点云。

Tao等人[54]将动态滤波器扩展为卷积算子。该运算符可以用于实现深度卷积架构。

Convolutional encoder

在这个领域中,点云将首先被体素化为3D CNN的输入。隐式特征网络(IF-Nets)是由Pons-Moll等人[55]设计的,用来处理拓扑,提供连续的并产生完整的3D形状。IF-Nets保存了大量提取的隐式函数的信息,但重要的是,它们也可以在输入中的细节,并可以恢复连接的人类。

Funkhouser [56]等人设计了稀疏体素完成网络(SVCN),该网络由两个类似u-net的子网组成,分别用于结构生成和结构细化。结构生成子网通过体素化和输出表示三维曲面的稀疏体素,将输入数据转换为一组稀疏体素。然后从结构细化网络中删除冗余体素。

然而,体素化过程导致了几何信息的不可逆损失。

Xie等人[57]引入了网格残差网络(GRNet),并将三维网格作为中间表示来调整不规则点云。

在GRNet中,设计了网格和网格反向方法将点云转换为三维网格,这是三维CNN可以使用的。并提出了立方特征采样层,以提取相邻点的信息,保存上下文知识。GRNet允许在3D点云上进行卷积,同时保留它们的结构和上下文信息。然而,GRNet的体素表示仅用于重建低分辨率的形状。

因此,Wang等人[58]开发了VE-PCN,将无序点集转换为网格表示,以支持边缘生成和点云重建。

Liu等人[59]提出了MRAC-Net,其中包括一个各向异性卷积编码器,用于提取局部和全局特征,以提高模型对潜在特征的提取能力。

Deconvolutional decoder

除了特征学习外,卷积还可以用于重建点云。

Wang等人[60]设计了软池化网( SoftPoolNet),将提取的软池化特征称为软池。区域卷积的设计是为了最大化解码阶段的全局激活熵。

为了恢复点云的细节并保留原始的平面结构,Deng等人[61]提出了三维网格变换网络,其中计算了重建的点云的权值。

总之,这种一般的体素三维数据表示和三维卷积存在一些局限性:

  • 首先,并不是所有的体素或网格表示都是有用的,因为它们包含扫描环境中已占用和非占用的部分。因此,在这种无效的数据表示中,对计算机存储的高需求是不必要的。
  • 其次,体素或网格的大小难以设置,这影响了输入数据的规模,并可能会破坏点之间的空间关系。
  • 第三,计算和内存需求随着分辨率的增加而不断增长。

C. Graph-based methods

由于点云和图都可以看作非欧几里得结构数据,通过将点或局部区域作为一些图的顶点来探索点或局部区域之间的关系是方便的(图10)。

在这里插入图片描述
作为一项开创性的工作,DGCNN[62]引入了一种动态图卷积方法。在动态图卷积中,相邻矩阵可以通过来自潜在空间的顶点关系来计算。该图是在特征空间中建立的,并可以在DGCNN中进行动态更新。此外,我们还设计了EdgeConv来动态计算每个网络层中的图,并可以与现有的架构进行集成(图11)。
在这里插入图片描述除了动态图卷积外,PointNet++[12]也可以看作是一种利用图卷积利用采样中心点固定邻接信息的方法。Pan[20]结合图卷积,Pan[20]设计了一种分层编码器,通过传播多尺度边缘特征来细化局部几何细节,通过骨架生成捕获。随后,提出了边缘感知特征扩展(EFE)模块,通过突出点的区域边缘来扩展点的扩展/上采样样本信息。

Nodeshuffle and Inception DenseGCN 是由Qian等人提出的。前者利用图卷积网络(GCN)对相邻点的区域点特征进行更好的编码,而后者在多个尺度上聚合特征。PU-GAN是一个新的点上采样管道时,结合Inception DenseGCN与Nodeshuffle [67]。

Shen等[68]提出了一种图引导的变形网络,将输入数据和中间生成分别作为控制点和支持点,并对图卷积网络引导的优化建模为点云补全任务。该网络通过网格变形方法模拟了最小二乘拉普拉斯变形过程,具有改变建模几何细节的自适应能力,减小了网格变形算法与完成任务之间的差距。

Li等人[69]设计了PRSCN,首先使用点秩抽样方法,更客观地通过区域轮廓形式对点进行抽样和排序。随后,考虑到来自不同层次的特征之间的连接,设计了一个交叉级联单元来集成特征。此外,还提出了跳型EdgeConv,在保持核大小的情况下扩大接受域。

此外,利用全局特征和局部特征,提出了LRA-Net[70],利用点网和图卷积网络(GCN)的结构,恢复具有更多细节和更平滑形状的完整点云。

Attention-assisted GCN
此外,注意机制也被引入到了GCN中。

为了恢复更精细的形状,Wu等人[71]引入了一种基于学习的方法。它们对部分输入的局部区域进行采样,编码它们的特征,并将它们与所利用的全局特征相结合。图构建后,收集所有区域特征,并与多头注意力进行卷积。图注意机制使每个局部特征向量能够在不同区域内进行搜索,并基于高维特征空间中的关系,选择性地吸收其他局部特征。

CRA-Net[72]设计了一个基于图形注意的跨区域注意单元。该模块量化了特定上下文下区域特征之间的潜在联系,并通过全局特征进行解释。给定这样的链接,每个条件区域特征向量都可以作为图的注意进行搜索。

在PC-RGNN[73]中,设计了一个图神经网络模块,该模块通过局部-全局注意机制和基于多尺度图的上下文聚合来全面捕捉点之间的关系,极大地增强了编码特征。

但是,构建基于图的网络存在以下两个挑战:

  • 首先,定义一个适合于动态大小邻域的算子,并维护CNN的权重共享方案。
  • 第二,利用每个节点的邻居之间的空间和几何关系。

D. Folding-based methods

作为Yang等[74]首次证明的通用架构,基于折叠的解码器可以从二维网格重建对象的任意点云(图12,图13)。FoldingNet 就像施加一种“虚拟力”,使变形/切割/拉伸二维网格到三维表面上。这种变形力应受到相邻网格所引起的互连的影响或调制。由于解码器中的中间折叠步骤和训练过程可以用重建点来表示,因此可以直观地看到折叠力的逐渐变化。

在这里插入图片描述
在这里插入图片描述
基于折叠的方法(KCNet[75]和MSN[76])通常从一个固定大小的二维平面上采样二维网格,然后将其与点云特征编码器提取的全局形状表示拼接起来。KCNet[75]、AtlasNet[13]、MSN[76]和SA-Net[21]通过评估一组参数化的表面元素来重建完整的对象,并学习从二维到三维表面元素的投影。

此外,TopNet[17]还探索了分层根树体系结构作为解码器,生成随机分组,并通过将树解码器中的节点可视化为其子集合,可视化地演示了解码器所利用的体系结构。

为了充分利用结构细节,温等[21]提出了跳跃注意网络,它贡献了两个方面:采用跳跃注意机制来探索局部输入的区域结构细节,提出了利用分层折叠的结构保持解码器来利用所选择的几何信息。

尽管它们的成功有限,但一个物体的伟大细节经常被遗漏。现有的基于折叠的方法,如PCN[18]、FoldingNet[74]和TopNet[17],在一定程度上不能产生对象的结构细节。

其中一个原因是,它们只依赖于单一的全局形状表示来预测整个点云。相比之下,帮助恢复详细几何图形的丰富的局部区域信息并没有得到充分的利用。

Zong[4]等人提出了一种自适应采样和分层折叠网络(ASHFNet),其中利用自适应采样模块的去噪自动编码器学习局部区域特征,而利用门控跳过注意和多分辨率完成目标的分层折叠解码器利用局部结构细节。

Li 等人[77]将基于点的编码器与基于FC的解码器和基于折叠的解码器相结合,产生了完整的输出,该具有多级损失函数的模型可以直接应用于点云的完成。

目前,FoldingNet是现有点云补全网络中应用最广泛的解码模块。FoldingNet有一个缺点,它促使研究人员构建新的解码器块。

  • 折叠操作为每个父点采样相同的二维网格,忽略了父点中包含的局部形状特征。

GAN-based methods
与传统的CNN相比,GAN[78]架构利用一个鉴别器隐式学习来估计生成器提供的点集合(图14)。由于三维数据的特点,GAN在点云补全中的集成存在几个固有的挑战:

  • 不同于二维图像的网格结构,其中像素的位置是明确定义的。相比之下,具有不同三维形状的点云是高度非结构化的。一般来说,在三维形状上训练的网格会产生具有显著不均匀性的点云。也就是说,点并不是均匀地分布在形状的表面上的。这种不均匀性可能导致不需要的形状,破坏我们预测的完整性。
  • 点云的无序程度使得完成任务与二维图像计算存在显著差异。在二维图像渲染中,给定网格对齐像素,可以很容易地测量部分输入可见区域和预测输出之间的重建一致性。这种比较在三维形状补全方面具有挑战性,因为两个三维形状的对应区域可能位于三维空间中的不同位置。GAN反演导致重建不良,危及形状完成任务。
  • 而简单的GANs只能产生一个小规模的(1024或2048)点集合,因为复杂的点分布和出了名的困难训练。

因此,研究者在传统GAN的基础上大大改进了点云补全。

在这里插入图片描述

F. Variational autoencoders (VAEs)-based methods

经典的AEs和VAEs是在一个完整的3D对象上进行训练的。然后确定模型的权重,以生成不完整数据的潜在表示。最后,生成模型完成了条件生成网络设置中的部分输入。完成生产是基于从完整的形状中明确提取的学习模式分布。在训练数据集中没有成对的完成实例。

Spurek等人[105]引入了一种名为 HyperPocket 的变分自动编码器架构,它能够解开潜在的表示,从而生成已完成的三维点云的多个变体(图16)。点云处理被分成两个不连接的数据流,并利用一个超网络范式来填补由缺失的物体部分留下的空间口袋。
在这里插入图片描述
Liu等人[27]设计了一个变分关系点云完成网络(VRCNet),利用一个双路径单元和一个基于VAE的关系增强模块进行概率建模。并设计了能够有效利用和集成多层点信息的多个关系模块,包括点自注意核和点选择核单元。

Zamorski等人[106]提出了三种生成建模方法的应用,并对AE、VAE和对抗性自编码器的架构进行了定量和定性的测试。此外,他们还介绍了一种方法,利用扩展的点网模型(双点网)基于局部特征和全局形状来操纵点。

G. Transformer-based methods

Transformer[107]最初被提出用于自然语言处理中的句子编码,之后在二维计算机视觉(CV)[108]、[109]领域流行起来。由PCT[110]、Pointformer[111]和PointTransformer[112]首创的Transformer已经开始了点云处理的旅程。

基于Transformer表示学习能力的优点,Yu等[24]认为点云完成是一个集到集的转换问题,提出了一种用于点云完成的Transformer编码解码器结构。通过将点云表示为一组具有位置嵌入的无序点,该点云可以转换为一系列的点代理。采用该Transformer进行点云的生成。为了方便Transformer更好地利用点云的三维几何结构的感应偏差,他们进一步设计了一个明确模拟局部几何关系的几何感知块(图17a)。
在这里插入图片描述
Xiang等人[103]没有利用Tansformer的表示学习能力,而是设计了具有雪花点反褶积(SPD)的SnowflakeNet,并将基于Tansformer的结构应用到解码过程中。SnowflakeNet将完整点云的生成建模为三维空间中点像雪花一样的增长。在每个SPD之后,子点通过分裂它们的父点逐渐生成。揭示几何细节的思想是在SPD中引入一个Skip-Transformer来学习最适合局部区域的点分裂模式。Skip-Transformer 利用一种注意机制来总结在之前的SPD层中使用的分裂模式,从而引导当前的SPD层的分裂。由SPD产生的局部紧凑、结构化的点云可以准确地捕获局部斑块中三维形状的结构特征,使网络能够预测高度详细的几何形状(图17b)。

此外,Lin等人[113]提出了PCTMA-Net,其中Tansformer的注意机制可以提取点云内的局部上下文,并利用其不完整的局部结构细节。基于变形图集的点生成网络充分利用提取的Tansformer特征,利用形状上定义的图表来预测缺失区域。

然而,基于Transformer的模型也有一些局限性。

  • 由于Transformer参数的数量,与其他方法相比,该模型太大,无法部署在设备上。
  • 除了SANet[21]中对注意的目视解释外,Transformer增强性能的机制难以解释。

H. Other methods

除了上述方法外,研究人员还对上采样法和训练前的方法进行了研究。

Wen等人[104]设计了PMP-Net,通过移动不完整输入中的每个点来完成点云,以确保点移动路径(PMP)的总距离最短。因此,PMP-Net 根据总点移动距离的约束来预测每个点的唯一PMP。

Kim等人[114]引入了一个形状补全框架来保持全局上下文和局部特征,其中设计了一个对称感知的上采样模块(SAUM)来保留几何细节,并利用形状补全的对称性。

Kusner[115]等人[115]开发了一种名为遮挡补全(OcCo)的预训练机制,它的工作原理是屏蔽遮挡点不受不同摄像机视图的观察,然后优化补全模型。通过这种方式,该方法学习了一个预先训练过的表示,它可以识别嵌入在真实点云中的内在视觉约束。

性能比较(Comparision)

本节总结了在几个数据集上的最新方法的结果。本节将比较这些方法的性能,并为未来的工作提供一些建议。

A. 在提供真值的数据集(ShapeNet, ModelNet, and Completion3D) 上的性能总结

ShapeNet 是的三维形状完成最常用的数据集。这三个数据集都属于人工合成的基准测试。

如表II、III、V、图s1、s2(见补充材料)所示,有各种方法进行的结果,可以得出如下推断:

  • 以MLP为基本单元的基于点的模型,被广泛用于学习点级信息。
  • 基于图和基于GAN的网络可以给出三维点云的完成以出色的结果。这两种方法的结合应该更加关注。
  • 基于Transformer的模型由于其处理不规则数据的强大能力,最近吸引了更多的关注。SOTA方法可以归功于最新的SnowflakeNet。然而,将基于变压器的模型扩展到频谱域仍然是一个挑战。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
B. 在不提供真值的数据集(CompletionKITTI) 上的性能总结

表四、V和图3(见补充材料)给出了许多方法在完成KITTI上取得的性能,其中一些观察结果如下:

在这里插入图片描述

  • CompletionKITTI 数据集来源于真实世界捕获的KITTI数据集。具有内在的挑战性,如没有提供Ground-Truth值,在一些实例上极其稀疏,给点云完成带来了困难。
  • 如表三所示,基于点、基于GAN和基于Transorfomer的方法都取得了完成效果。
  • 此外,一些作品[50]、[87]是为现实世界中的点云设计的,在这些方向上应该付出更多的努力。

应用领域(Applications)

点云补全是许多应用中的一项重要技术,并积累了多项成果。因此,本节将介绍点云补全在许多领域的应用。

A. Construction

B. Mining space

C. Autonomous driving

D. Robotics

未来的发展方向和开放性的问题(FUTURE DIRECTION AND OPEN QUESTIONS)

基于上述讨论,有两个问题需要解决:(1)通过克服上述挑战,实现高精度和鲁棒的点云完成。(2) 操作速度快,精度高。
在本部分中,我们提出了几个未来的研究方向,以提高基于DL的点云网络的性能,如下所示:

  • 虽然基于深度学习的点云完成取得了令人印象深刻的结果,但几乎所有现有的网络都是在当前的数据集中进行的,如ShapeNet、ModelNet和Completion3D。这些数据集来自于CAD。因此,迫切需要开发在现实世界中捕获的新数据集,使网络在野外更鲁棒。
  • 由于点云的无序性和不规则性,点云的早期处理主要是体素化。然而,这种处理方法仍会导致点云有效信息的丢失,增加计算复杂度。虽然已经设计了特征提取网络,如PointNet和GCN,但特征学习还需要付出更多的效果。在解码器的设计中,只有全连接的网络、FoldingNet和新提出的基于Transformer的解码器网络。此外,建立相应的损失函数是未来需要解决的一个重大挑战。
  • 虽然在三维DL模型上取得了显著的成就,包括PointNet[11],PointNet++[12],PointCNN[52],DGCNN[62],FoldingNet[74],PF-Net[91],PoinTr[24]和其他工作[104],[114],[115].由于Transformer在计算机视觉中优于各种方法,基于Transforer的方法将在未来几年得到广泛的研究。
  • 虽然已经开发出了无监督的方法[87]、[99]、[100],但由于从现实世界中捕获的点云无法获得地面真实信息,因此需要对其产生更多的影响。
  • 有限制的网络可以鲁棒的实时完成任务。此外,网络训练过程也很耗时。研究的重点应集中在轻质化、紧凑化的结构设计上。

结束语(Conclusion)

本文对三维点云完成的方法进行了系统的回顾。总结了这些方法的综合分类和性能比较。介绍了每种方法的优点和局限性,并列出了可能的研究方向。本文详细介绍了DL在点云完成方面的研究挑战和机遇,以促进潜在的发展。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/2023面试高手/article/detail/328203
推荐阅读
相关标签
  

闽ICP备14008679号