赞
踩
论文:https://arxiv.org/pdf/2012.05551.pdf
代码:https://github.com/huangjh-pub/di-fusion
目录
PLIVox Representation
在本文中,我们基于一种新的三维表示方法(概率局部隐式体素,PLIVox)提出了深度隐式融合DI-Fusion,用于使用RGB-D相机的在线三维重建。我们的PLIVox对场景先验进行编码,同时考虑局部几何形状和深度神经网络参数化的不确定性。有了这样的深度先验,我们能够进行在线隐式三维重建,实现最先进的相机轨迹估计精度和建图质量,同时与以往的在线三维重建方法相比,实现更好的存储效率。
我们用PLIVoxs表示重建的3D场景。输入RGB-D帧,我们首先通过找到当前深度点云和地图之间的最佳对齐来估计相机姿态Tt。然后整合深度观测以进行表面建图。可以根据需要随时以任何分辨率提取场景网格。相机跟踪和表面映射都是直接在深度隐式表示上执行的。
重建的场景被稀疏地划分为均匀间隔的体素(Probabilistic Local Implicit Voxels ,PLIVoxs),表示为V = {vm =(cm,lm,wm)},其中cm∈R3为体素质心,lm∈RL为编码场景先验的潜在向量,wm∈N为观察权重。对于任意点测量 x ∈ R3,我们可以使用简单的除法和舍入操作 m(x) : R3->N+ 高效查询其对应的 PLIVox 索引 m(x)。x 在 vm(x) 中的局部坐标计算为 y =1/a(x − cm(x)) ∈ [−1/2,1/2]3,其中 a 为体素大小。
与之前用有符号距离函数表示底层 3D 表面的方法不同,我们使用概率有符号距离函数来表示它,其中每个位置 y 的输出不是 SDF,而是 SDF 分布 s ∼ p(·|y)。 这样,概率带符号距离函数同时对表面几何形状和几何不确定性进行编码。在这里,我们将 SDF 分布建模为规范高斯分布 N (μ, σ2),其中 μ 和 σ 分别是平均值和标准差。为了获得更紧凑的表示,我们使用编码器-解码器深度神经网络 Φ 用潜在向量 lm 对概率符号距离函数进行编码。
编码器-解码器神经网络 Φ = {ΦE, ΦD} 由编码器子网络 ΦE 和解码器子网络 ΦD 组成,它们与所有 PLIVox 共享权重。
编码器 φE 的目标是将帧 t 处每个深度点观测的测量值转换为观测潜在向量 ltm 。具体来说,对于位于 PLIVox 中的所有 RGB-D 点测量值,φE 获取点测量值的局部坐标 y 和法线方向 n,并仅使用全连接层的将它们转换为 L 维特征向量 φE(y, n) 。然后使用平均池化层将来自多个点的特征向量聚合为一个潜在向量 ltm 。这里需要法线方向 n 来消除每个 PLIVox 内的方向模糊性,以便网络可以推断出 SDF 的符号。
对于解码器 φD ,将局部坐标 y 和潜在向量 lm 的连接作为输入,输出是一个 2 元组 {μD, σD},它表示位置 y 处的概率有符号距离函数分布 p(·|y)~N (μD, σ2D) 的高斯参数。
注意,ΦE 和 ΦD 中的两个潜在向量 ltm 和 lm 是不同的潜在向量。虽然观测潜在向量 ltm 对帧 t 处的 RGB-D 观测进行编码,但几何潜在向量 lm 融合了先前的 ltm 并存储在用于解码的每个 PLIVox 中。观察潜在向量和几何潜在向量都具有相同的维度,并且几何潜在向量可以通过观察潜在向量进行更新。
通过我们对场景先验(包括场景几何和不确定性)的 PLIVox 编码,我们提出了一种帧到模型的相机跟踪方法。我们声称,学习到的深度先验具有足够的三维场景信息,可以进行准确的相机姿态估计,而无需像 Bundlefusion 中那样使用额外的稀疏特征。我们提出将概率符号距离函数制定为相机位姿估计的目标函数,并提出在相机位姿上使用目标函数的近似梯度,这使得它在优化过程中收敛得足够快。此外,我们的网络可以有效地解码概率符号距离函数,从而实现快速的在线跟踪性能。
在估计出 RGB-D 观测 Ot 的相机位姿后,我们需要通过将新观测中的新场景几何与噪声融合,基于深度隐式表示来更新观测 Ot 的建图,这也称为几何积分。如下图所示,一个展示增量集成效果的小例子。顶行显示了真实的底层几何结构,在每个时间步长,我们从颜色较浅的区域采样点,并使用方程将其融合到我们的 PLIVox 中。底行显示每个框架集成后相应的几何形状。网格的颜色由σD编码,反映了表面的不确定性。
此外,我们可以选择提取场景表面的三角形网格以用于可视化。在提取过程中给定所需的分辨率,我们将每个 PLIVox 划分为等间距的体积网格,并使用 PLIVox 的潜在向量通过解码器 φD 查询每个网格的 SDF。然后使用移动立方体提取最终的表面网格。在这里,为了保持跨 PLIVox 边界的连续性,我们将每个 PLIVox 的域加倍,以便相邻 PLIVox 之间的体积网格彼此重叠。每个体积网格的最终 SDF 使用从重叠 PLIVox 解码的 SDF 进行三线性插值。对于纹理,我们简单地在提取的网格上分配顶点,纹理颜色是根据多个观测值反投影的最近点测量值平均得到的。
数据集为ICL-NUIM数据集,其中包含地面实况相机轨迹和 3D 场景几何形状,用于评估深度融合方法的准确性。
度量指标为绝对轨迹误差 (Absolute Trajectory Error,ATE) 进行相机位姿估计和表面误差(surface error)进行三维表面质量评估。
DI-Fusion在取得较高的重建精度的同时,表示场景所需的参数量也大大减小,下图左下角图给出了重建同一个场景时,不同的方法对内存的有效占用随时间的变化曲线。
我们的方法具有三个主要局限性:(1)学习到的先验不能提供所有可能的局部几何形状的万能拟合,特别是在物体过于复杂的情况下。 (2) 每个PLIVox都是独立的,不考虑相邻PLIVox之间的关系, 因此重建场景的空间连续性得不到保证。 (3) 没有合并循环闭合组件来强制全局一致性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。