当前位置:   article > 正文

【论文翻译】A Benchmark and a Baseline for Robust Multi-view Depth Estimation(3DV 2022)_multi-view depth estimation zero shot

multi-view depth estimation zero shot

一、论文简述

1. 第一作者:Philipp Schroppel

2. 发表年份:2022

3. 发表期刊:3DV

4. 关键词:MVS、深度估计、基准、基线模型

5. 探索动机:然而,目前深度学习的方法通常只在与其训练领域相似的数据上进行评估。

However, approaches are often evaluated only on data similar to their training domain. Furthermore, evaluation is predominantly done only up to a relative scene scale: in depth-from-video, predictions are aligned to ground truth depths based on the median values; in multi-view stereo, models are supplied with minimum and maximum depth values and predict relative values within this range.

6. 工作目标:解决上述问题。

7. 核心思想:

最近用于多视图深度估计的深度学习方法被用于从视频中获取深度或多视图立体设置。尽管设置不同,这些方法在技术上是相似的:它们将多个源视图与一个关键视图相关联,以估计关键视图的深度图。文章介绍了 Robust Multi-View Depth Benchmark,是建立在一组公共数据集上,并允许在这两种设置下对不同领域的数据进行评估。作者对最近的方法进行了评估,发现各领域的表现并不平衡。此外,还考虑了第三种情况,在这种情况下,摄像机的位姿是可用的,目标是以正确的尺度估计相应的深度图。表示在这种情况下,最近的方法在不同的数据集上并不通用。这是因为他们的代价体输出跑出了分布。为此,提出了用于多视角深度估计的Robust MVD Baseline模型,该模型建立在现有的组件之上,但采用了一种新的尺度增强方法。它可以应用于鲁棒的多视角深度估计,不受目标数据的影响。

8.论文下载:

https://github.com/lmb-freiburg/robustmvd

https://arxiv.org/pdf/2209.06681.pdf

二、论文翻译

1. 介绍

从计算机视觉的早期开始,深度是使用多个视图之间的运动视差来重建的。运动视差的原理是通用的。它在所有领域都是一样的,就像物理学在世界上任何地方都是一样的。因此,经典的基于几何的方法不局限于训练分布,而是对来自不同领域的数据不可知。

近年来,基于深度学习的多视图深度估计方法已经出现。它们要么用于视频深度设置,其中图像来自具有小且增量但未知的摄像机运动的视频,要么用于具有非结构化但校准的图像集合的多视图立体设置。通常,这些方法的核心是深度网络,它将从多个图像中学习到的特征关联起来,并学习将获得的代价体解码为估计的深度图。原则上,这种设计允许网络基于运动视差进行估计,这应该能够实现跨域的良好泛化和对不同场景尺度一致性的预测。然而,方法通常只在与其训练域相似的数据上进行评估。此外,评估主要只在相对场景尺度内完成:在deep-from-video中,预测与基于中值的真实深度对齐;在多视图立体几何中,模型提供最小和最大深度值,并在此范围内预测相对值。

在这项工作中,我们引入了一个基于现有数据集的基准来评估跨域泛化的多视图深度模型。此外,由于像小相机运动、遮挡或无纹理区域这样的特定情况是潜在有问题的,因此如果模型带有其不确定性的度量,这将是有益的,该不确定性应当与深度预测误差对齐。具体而言,鲁棒的多视图深度基准(1)以zero-shot方式评估来自不同域的数据的估计深度图,以及(2)使用稀疏化误差曲线下的面积度量来评估不确定性。此外,它(3)包括绝对设置中的评估,其中真实相机位姿被用于建模,并且评估是相对于真实深度以它们的正确尺度完成的。由于尺度是通过位姿提供的,所以评估是在没有给定深度范围和没有对准的情况下进行的。该设置在实践中是相关的,例如在机器人或多摄像机设置中,摄像机位姿是已知的。

我们在原始的相对视频深度或多视图立体设置以及上述绝对深度估计设置中评估了最近模型的深度和不确定性估计。我们发现(1)几乎所有的模型都具有跨域不平衡的性能:(2)不确定性与预测误差只有有限的一致性;(3)模型大多在相对尺度上表现良好,但不能直接应用于跨数据集的正确尺度深度估计。我们将在绝对尺度上的问题归因于相关代价体中的分布外的统计:深度来自视频的模型学习仅使用与训练期间看到的绝对深度值对应的代价体分数;在给定的最小和最大深度值内,多视图立体模型与代价体分布过拟合,因此需要知道足够精确的深度范围。

在绝对真实世界尺度下的深度估计问题限制了实际应用。为了解决这个问题,我们建立了一个简单的基线模型,用于鲁棒的跨域、尺度无关的多视图深度估计。该模型主要基于现有组件,如DispNet结构,并在BlendedMVS数据集和FlyingThings3D数据集的静态版本上进行训练。在训练过程中,我们只添加尺度增强作为一个新组件来随机化跨尺度。这个简单的基线实现了使用运动视差所承诺的:它泛化了各个领域和尺度。

2. 以前的方法和基准

来自视频的深度。在来自视频的深度中,深度图是从视频的连续图像中估计的。通常情况下,假设摄像机的内参已知,但摄像机的运动是未知的。因此,该任务通常还包括估计图像之间的相机运动。DeMoN是这个任务的第一个基于深度学习的方法。DeMoN由一个单一的网络组成,该网络从一对连续的图像中联合估计深度和相机运动。后来的方法是DeepTAM和DeepV2D,它们都处理两个以上的帧,并且交替分别利用建图和跟踪模块来估计深度和相机运动。在这种方法中,建图和跟踪模块通常在训练期间过拟合看到的场景尺度。将模型应用于不同尺度的场景需要基于附加信息将预测与场景尺度对齐。此外研究表明,这种方法的建图模块不能跨尺度推广,即,通常不可能输入在真实世界尺度下真实相机位姿并获得绝对深度。我们认为这是一个缺点,因为将运动视差映射到给定相机运动的深度的概念与尺度无关。

多视图立体几何。在多视图立体几何中,任务是从一组具有已知内参和相机位姿的非结构化的多帧图像中估计被观察场景的3D几何形状。在这里,我们将重点放在作为3D几何表示的深度图上。DeepMVS是完成这项任务的第一个基于深度网络的方法。DeepMVS通过相关层将关键视图与源视图对应起来,相关层基于候选深度值从源图像中采样块,并将它们与关键图像中的块进行比较。得到的视图匹配特征通过最大池化进行融合。MVSNet采用类似的方法,但是在学习的特征空间中比较源视图和关键视图,并且基于源视图之间的方差融合多视图信息。后续许多作品都建立在这个概念上。R-MVSNet通过循环方式减少内存消耗。CVP- MVSNet和CAS-MVSNet以由粗到细的方式进行关联,以减少计算限制并实现更高的输出分辨率。Vis-MVSNet利用基于预测不确定性的后期融合策略,改进多视图信息的融合。对于不同的场景尺度,所有这些方法都需要观察到的场景的最小和最大深度值作为输入,并预测相对于该范围的深度。研究表明,这些方法在给定真实位姿,但不知道观察场景的深度范围的更一般的设置中存在问题。

基准和数据集。学习的视频深度方法主要在KITTI和scannet上进行评估。KITTI是基于视觉的自动驾驶关键任务的基准集,包括深度估计。ScanNet是一个用于3D场景理解的数据集,具有室内场景的带标注的RGB-D视频,这些视频是通过精心设计的捕捉框架大规模获取的。学习的多视图立体几何方法主要在DTU、ETH3D、以及Tanks and Temples上进行评估。DTU由80个场景组成,每个场景展示一个桌面物体,这个物体是由安装在机器人手臂上的相机和结构光扫描仪拍摄的。坦克和寺庙由真实世界的场景组成,这些场景是用高分辨率摄像机和工业激光扫描仪在室内和室外拍摄的。同样,ETH3D高分辨率多视图立体几何基准由各种室内和室外场景的图像组成,这些图像由高分辨率DSLR相机和工业激光扫描仪获得。训练通常在相同的数据集上进行,即在KITTI、ScanNet和DTU上进行。此外,一些方法在BlendedMVS上训练,它是专门为多样性设计的,以提高泛化性。在这项工作中,我们还在FlyingThings3D数据集上进行训练,它已经被证明能够在其他基于匹配的任务中实现良好的泛化性,如视差和光流估计。

3. 鲁棒的多视图深度基准

关键因素。在这项工作中,我们的目标是评估多视图深度模型在任意真实数据上的鲁棒深度估计。为了反映这一点,我们提出基于以下四个关键因素的鲁棒多视图深度(MVD)基准测试:

  1. 深度估计的性能应该与目标域无关。作为代理,基准从不同的现有数据集定义测试集。训练集没有定义,但必须不同于测试数据集。评估是在没有微调的zero-shot跨数据集设置中完成的。这模拟了对任意的、可能看不见的现实世界数据的鲁棒性。
  2. 基准应该适用于不同的多视图深度估计设置。为此,基准允许不同的输入模态和预测深度与真实深度之间的可选对齐。
  3. 估计的不确定性度量应该与深度估计误差一致。这是用稀疏化误差曲线度量下的面积来评估的。
  4. 评估不应受源视图选择的影响。为此,使用一个查找和评估一组准最佳源视图集的过程。

与现有基准的关系。对于多视角立体几何,存在多个既定基准,例如DTU,ETH3D,以及Tanks and Temples。我们认为建议的基准是对这些基准的补充。现有的多视图立体几何基准评估基于融合点云的三维重建表现。此外,所提出的基准根据学习模型的典型原始输出(即深度图和不确定性)评估其泛化能力。我们鼓励未来的工作在现有基准上评估3D重建性能,但也要在鲁棒的MVD基准上评估泛化能力。视频深度模型通常在现有的数据集上进行训练和评估,例如KITTI或ScanNet。通常,测试集的多样性比建议的基准要小。因此,我们鼓励未来对视频深度进行研究,以评估在鲁棒MVD基准的泛化能力。通常不计算绝对尺度下的深度估计。然而,我们认为这一设置在实践中是相关的,并鼓励未来的工作鲁棒的MVD基准的这一设置上进行评估。

3.1. 设置

测试集。鲁棒的MVD基准的测试集是基于KITTI、ScanNet、ETH3D、DTU和Tanks and Temples数据集,因为它们是多视图立体几何和视频深度评估的常用数据集,涵盖了不同的域和场景尺度。

每个测试集是来自各自数据集的一组样本。每个样本都有输入视图V = (V0,··,Vk),包括关键视图V0和源视图V1,…,Vk和用于关键视图的(可能稀疏的)真值深度值z *。每个视图Vi由图像Ii、相对于关键视图的位姿和内参Ki组成。任务是从输入数据中估计关键视图V0的稠密深度图Z。测试集的选择使它们尽可能与现有的数据分割具有可比性。测试集故意很小,以加快评估速度,但选择的样本涵盖了很大的多样性。

训练集。基准没有定义训练集,因为目标是对任意真实世界数据的鲁棒性,而不依赖于特定的训练设置。但是,在使用训练数据与基准的测试数据集重叠的情况下,必须指定它。

评估设置。基准允许使用提供给模型的不同输入模式进行评估,并可选择在预测深度和真实深度之间进行对齐。所提供的输入模态总是包括每个视图的图像Ii和内参Ki,并且可以选择包括位姿i 0T和具有最小和最大的真值深度值的真实深度范围(zmin∗;Zmax∗)。为了解决某些模型的尺度模糊性,在计算度量之前,例如基于中位数真实深度和中位数预测深度的比率,可以选择将预测深度图与真实深度图对齐。

在文献中,来自视频的深度模型通常在没有位姿和真实深度范围的情况下应用,并且通过对齐来评估。多视图立体几何模型通常与位姿和真实深度范围一起应用,并且在没有对齐的情况下进行评估。这两种设置都在相对尺度上评估深度估计,即达到未知尺度因子或在给定深度范围内。相比之下,基准还在绝对尺度上评估深度估计。在这里,模型提供了位姿,但没有深度范围,任务是估计绝对真实世界尺度的深度图。评估是在没有对齐的情况下完成的。

深度估计度量。针对绝对相对误差(rel)和内点比率(τ)的每个测试集报告结果,阈值为1.03:

​其中j索引具有有效真实深度的m个像素,I索引测试集中的n个样本,并且[.]表示Iverson括号(如果方括号内的条件满足则为1,不满足则为0)。绝对相对误差表示预测深度值与真实深度值的平均相对偏差,以百分比表示。内点比率表示具有正确预测的像素的百分比,其中如果误差低于3%,预测被认为是正确的。除了单个测试集的结果之外,平均指标和模型运行时间在所有测试集上报告。

在计算度量之前,估计的深度图被上采样到全分辨率。此外,为了去除难以置信的异常值的影响,深度估计被限制在0.1米到100米的范围内。我们推测这是现实世界应用的合理范围。

不确定性估计度量。结果报告了常用的稀疏化误差曲线和稀疏化误差曲线下面积(AUSE)。对于稀疏化误差曲线,基于实际像素误差(oracle不确定性)和估计像素不确定性的误差度量逐渐排除最错误的像素。稀疏化误差曲线则是基于oracle和基于不确定性的误差减少的差异。AUSE是稀疏化误差曲线下的面积。AUSE为0是最优的,表明估计不确定度和实际误差之间的完美一致。

源视图选择。为了分析源视图的选择对模型性能的影响,基准测试为每个模型查找并评估一组准最优的源视图。对于给定的样本,模型对所有对(V0;Vi)的关键视图和单个源视图以及由此产生的绝对相对误差被存储。然后,通过按存储的顺序添加源视图,逐渐增加源视图集绝对相对误差。报告具有最低绝对相对值的一组源视图的结果错误。此外,绝对相对误差绘制在源视图集的大小上。

3.2. 鲁棒的MVD基准测试结果

评估模型。在这项工作中,我们在提出的基准上评估了COLMAP、 DeMoN、 DeepTAM、DeepV2D、MVSNet、CVP-MVSNet、VisMVSNet、PatchmatchNet、Fast-MVSNet、MVS2D模型。这一选择反映了开创性的作品,为后来的改进奠定了基础,以及代表当前最好的工作。对于所有模型,我们使用原始提供的代码和权重,除了MVSNet,我们使用PyTorch实现,因为它提供了比原始Tensorflow版本更好的性能。此外,我们还评估了我们在逆深度空间中使用平面扫描采样重新训练的MVSNet。对于DeepV2D,我们评估了KITTI和ScanNet模型。对于MVS2D,我们评估了ScanNet和DTU模型。请注意,我们有意不在特定的统一数据集上重新训练模型,因为基准测试的目标是跨不同测试集的泛化,独立于训练数据。

结果。在下表中,我们报告了在所提出的鲁棒MVD基准上评估模型的结果。我们报告了典型的视频深度和多视图立体几何设置的相对尺度以及绝对尺度的结果。

经典方法。为了与经典方法进行比较,在表a中,我们报告了COLMAP在基准上的结果。使用默认参数应用COLMAP的结果不能直接与学习模型的结果进行比较,因为COLMAP以较低的密度(平均54%)估计深度图,并且我们仅为具有有效预测的像素计算度量。我们增加了COLMAP报告没有过滤的结果,这会导致稠密的预测,但准确性较低。

相对尺度的评估。在表b和c中,我们报告了典型的视频深度和多视图立体几何设置的相对尺度的结果。结果表明,所有模型在训练域的表现都明显更好。

绝对尺度的评估。在表d中,我们提供了在绝对尺度深度估计设置下评估模型的结果。对于DeepV2D和DeepTAM,我们只使用建图模块和输入真实位姿。对于需要给定深度范围的模型,我们假设深度范围未知,并提供默认范围为0.2米至100米。这涵盖了所有测试集的范围,并模拟了真实世界的应用,除了位姿之外没有任何信息。

在这种设置下,所有评估的模型的表现都明显更差。视频深度模型在具有不同深度范围的数据集上的表现比训练数据更差(例如KITTI上的DeepV2D-ScanNet)。多视图立体模型在深度不同于给定默认深度范围的数据集上表现较差(例如DTU上的MVSNet)。大多数评估模型在内部构建和解码代价体,以平面扫描立体方式和特定的(逆)深度值将源视图与特定的关视图关联起来。我们将性能下降归因于超出分布的代价体统计。视频深度模型学习只使用与训练期间看到的绝对深度值相对应的代价体分数。在提供的深度范围内,多视图立体模型与代价体分布过拟合。

在实践中,这意味着现有的视频深度模型通常不能用于已知的真实摄像机位姿。多视图立体模型反过来需要一个足够精确的观测场景深度范围。尽管这种深度范围可以通过structure-from-motion
来获得,但这是以增加运行时间和复杂性为代价的。

提出的鲁棒MVD基线模型在所有测试集中表现出一致的性能。我们推测,该模型确实学会了利用多视图线索,实现跨域的泛化性。此外,所提出的尺度增强使绝对尺度深度估计独立于场景规模。

依赖源视图的性能。在下图中,我们绘制了不同数量源视图的性能。对于所有模型,我们在各自的设置中绘制结果,根据下表给出最佳的平均结果。在理想的曲线中,当有更多的源视图时,误差会减少,当更多的视图不包含额外的信息时,误差会收敛到最小值。结果表明,大多数模型的多视图融合策略是次优的。

在图3中,我们绘制了预测深度预测不确定性的评估模型的稀疏化误差曲线。在表3中,我们报告了相应的面积下稀疏化误差曲线度量。同样,我们在各自的设置中报告每个模型的结果,以提供最佳的平均性能。先前模型的结果显示估计的不确定性和误差之间的次优对齐,而鲁棒MVD
基线模型给出了更好的不确定性。

图2. 源视图的数量对评估模型性能的影响。每个图显示了所有测试集相对于每个模型的准最优性能的平均绝对相对误差。阴影区域表示测试集之间的标准差。 

表3. 在稀疏化误差曲线(AUSE)下的面积评估估计的不确定性。AUSE为0意味着不确定性和误差的最佳对齐。

4. 鲁棒的MVD基线

在下面,我们描述了鲁棒MVD基线,它被专门设计为跨域和场景尺度的鲁棒深度估计的基线,可以作为对所提出的基准进行评估的基线。该模型主要基于现有部件,我们在表4中提供了单个部件的消融研究。

4.1. 模型结构

鲁棒的MVD基线模型建立在简单的DispNet网络结构,但适应于具有非校正图像的给定的多视图设置。更具体地说,如图4所示,并使用3.1节定义的符号,模型的结构如下:(1)将输入图像Ii映射到特征图的siamese编码器网络fθ,Fi = fθ(Ii),(2)以平面扫描方式将关键图特征f0与源视图特征Fi关联起来的相关层,从而产生面向视图的代价体C1,…,k,(3)将关键图像映射到用于解码代价体的特征F^0 = hσ (I0)的上下文编码器网络hσ,(4)一个融合模块gρ,将多个源视图的代价体通过学习后的权值加权平均融合到一个融合表示C = gρ(C1,…,k,F^0),(5)二维卷积代价体解码器网络(D,U) = kφ(C;F^0),将融合代价体映射为输出的逆深度图D,不确定性图U。逆深度图D保存每个关键图像像素的预测逆深度值d=1/z。

在第一个实验中,我们在双视图模式下应用基本模型,仅使用单个源视图。这个因素排除多视图代价体融合的影响,并允许对数据增强、训练数据集、模型架构和不确定性估计的影响进行独立评估。在此基础上,我们评估了不同的多视图信息融合策略。在表4c中,我们比较了disnet体系结构和MVSNet体系结构。

4.2. 数据增强

标准的光度和空间增强应用于所有视图。此外,为了防止模型过拟合训练数据的深度分布,我们引入了一种新的数据增强策略,我们称之为尺度增强。在训练期间,在输入模型之前尺度增强重新缩放真值转换i0t。同样地,真值逆深度图D *用逆标度因子进行缩放。范围之外的逆深度值(0.009m−1, 2.75m−1设置为掩码。为了选择比例因子,在具有最低计数的直方图bin的深度标签期间看到的深度值的直方图和当前样本的中位数真值深度值。图6显示了数据增强对示例性样本的影响。如表4a的结果所示,尺度增强是使模型能够跨不同场景尺度进行泛化的关键组成部分。

图6. 训练数据和增强:(a)一个StaticThings3D训练样本关键视图图像I0,(b)增强的关键视图图像,(c)真值逆深度D*,(d)随机抽样尺度因子为3.27的尺度扩充后的d*。转换0t到源视图使用相同的因子进行缩放。

表4. 鲁棒的MVD基线模型的消融研究。所有结果均为绝对尺度深度估计设置(表2d)。a)尺度增强对于跨场景尺度的泛化至关重要。b)在StaticThings3D和BlendedMVS上的联合训练提供了最佳性能。c) DispNet结构比MVSNet结构性能更好。d)预测拉普拉斯分布的参数而不是点估计提高了性能。e)使用学习后的权重进行加权平均的多视图融合效果略好于简单平均。最后一个模型是鲁棒MVD基线模型。

4.3. 训练数据

鲁棒MVD基线模型是在现有FlyingThings3D数据集的静态版本和现有的BlendedMVS数据集上联合训练的。我们称之为StaticThings3D(见图6)。StaticThings3D类似于FlyingThings3D:它包含2250个训练和600个测试序列,每个序列10帧,在随机Flickr背景前显示随机放置的ShapeNet对象。然而,在StaticThings3D中,所有对象都是静态的,只有相机移动。使用这种随机合成数据集的优点是,它减少了模型过拟合特定领域先验的可能性。在表4b,我们比较了StaticThings3D和BlendedMVS对抗单一数据集上的训练。联合训练在数量上的表现与单独在BlendedMVS上的训练相当,但结果在目标边界更准确。

4.4. 不确定性估计

鲁棒MVD基线模型不是预测逆深度图的点估计,而是预测拉普拉斯分布的参数,如[7]和[30]。为此,将一个附加的输出通道添加到网络中,使得一个通道编码预测的位置参数,另一个通道编码预测的尺度参数。然后通过最小化负对数似然来完成训练。对深度预测性能的影响评价见表4d。预测的不确定性在表3中评估,在图8中定性显示。

图8. 不确定性估计:第一行显示关键帧图像,第二行显示预测的逆深度图,第三行显示预测的不确定性图(红色表示不确定)。对于有问题的情况,模型输出高不确定性,例如(a)移动的物体,(b)无纹理区域,(c)窗口,或(d)精细结构。

4.5. 多视图融合

我们评估了多视图融合的两种策略,即从多个源视图中平均代价体,以及使用学习权重进行加权平均。对于加权平均,将一个具有两层的小型2D卷共享权重的网络应用于所有视图方向的代价体上,并为每个视图输出像素方向的权重。我们使用擦除数据增强进行多视图训练,其中源视图中的区域随机替换为平均颜色。表4e给出了两种多视图融合策略的结果。具有学习权值的模型称为鲁棒MVD基线模型。

5. 结论

我们提出了鲁棒MVD基准来评估在不同数据域上多视图深度估计模型的鲁棒性。基准支持不同的评估设置,即不同的输入方式和可选的预测和真实深度之间的对齐。我们发现现有的方法在不同域的性能不平衡,不能直接应用于任意的现实世界场景中,从给定的相机位姿以正确的尺度估计深度。我们也证明了这可以用现有的技术解决。与基准一起,我们提供了一个健壮的基线方法,可以作为未来工作的基础。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/695465
推荐阅读
相关标签
  

闽ICP备14008679号