赞
踩
主要参考这篇综述:【State of the Art on 3D Reconstruction with RGB-D Cameras】
这篇报告阐述了基于RGB-D的场景三维重建在算法概念和不同应用场景方面的最新发展,例如静态场景重建(第2节)、动态场景重建(第3节)以及颜色和外观捕捉(第4节)。这里我重点关注了第2章,基于静态场景的实时稠密三维重建。
价格合理的消费级RGB-D相机的出现带来了基于视觉的场景重建方法的深刻进步。计算机图形学和计算机视觉研究人员都花费大量精力开发全新的算法,用RGB-D相机捕捉静态和动态场景的综合三维模型。这在多个方面促进了最新技术的重大进步。尽管传感器分辨率有限,但有些方法可以获得非常高的重建细节。还有一些甚至可以实现实时性能,但质量可能更低。为了在更大的空间和时间范围内捕捉场景,开发了新的概念。最近的一些算法甚至在一般场景和无约束条件下,实现并行材质和光照估计的场景重建。在这份最新的报告中,我们详细分析了RGB-D场景重建的最新进展,并回顾了相关的重要工作。我们解释、比较并批判性地分析了促成这些最新进展的常见算法概念。此外,我们还展示了如何设计算法,以最好地利用RGB-D数据的优点,同时抑制其通常不常见的数据失真。此外,本报告确定并讨论了重要的开放性研究问题,并为未来工作提出了相关方向。
微软在2010年开始开发Kinect,深度相机开始兴起,这些轻量级传感器价格便宜容易获取,也能以足够的分辨率和实时速率捕捉每像素颜色和深度图像,逐渐被用于视觉计算相关工作。例如,KinectFusion (ISMAR 2011) 工作的出现,在计算机图形学和视觉领域产生了显著的影响,并引发了令人难以置信的反响。
首先,开发了基于RGB-D的静态环境密集三维几何重建的高度创新的新算法。他们在几个方面推动了最新技术的发展:引入了实现实时扫描和扫描集成的新概念,提出了减小漂移和大场景实时扫描的新思路,研究了在传感器噪声显著的情况下获得高几何质量的新思路。第二,提出了捕捉动态场景和场景元素的密集三维几何模型的全新方法,例如移动人体和刚性对象的模型,或一般可变形曲面的模型。同样在这一领域,最先进的技术也在多个方面取得了进步。例如,新的基于模板的方法已经达到了以前看不到的运行时性能和精度水平,即使是在使用单个RGB-D相机拍摄时也是如此。其他人引入了新概念,以实现非常高的重建细节,但计算成本较高。捕捉时空相干几何和动态学习形状模板的创新概念开辟了更多新的可能性。第三,开发了全新的方法,从RGB-D数据和几何图形中捕获额外的场景属性。特别是,提出了新的方法来捕获静态和动态场景的材料和反射模型,通常与光照估计并行,主要关注未校准的环境。同时捕获形状和外观要困难得多,但这不仅会导致更具表现力的场景模型,而且还会增加在困难场景条件下重建的鲁棒性。
在本报告中,我们将详细回顾和比较这三个领域的最新方法。我们将解释最新创新背后常见的新算法概念。特别是,我们将解释和比较新提出的RGB-D几何处理和形状表示的概念。回顾基本的数据结构和概念,即使在大的空间和时间范围内,也能扫描形状、材料和照明。我们的重点将是实现交互式或实时帧速率的方法。然而,我们也将探索实现这种运行时性能的基本原理,并展示它们是如何从最初为离线重建而开发的想法中产生的。该报告还将批判性地分析最近的进展,并讨论开放性问题和未来研究的途径。
SLAM主要研究未知环境下的机器人导航问题,重点关注轨迹和姿势优化,但重建通常仅限于稀疏点云。但在计算机图形学中,具有高几何质量的稠密RGB-D重建是最重要的。Curress和Levy于96年提出的体积融合的开创性工作,为首次实时RGB-D重建方法提供了基础,大多数现代方法都是基于这种思路。KinectFusion (ISMAR 2011) 工作是本节的重点。基于指标函数的优化的泊松表面重建,是另一个流行的方向,通常在点云数据的脱机环境中使用。
在下文中,我们首先简要概述了静态场景实时重建的参考系统(第2.1节),该系统利用商品RGB-D传感器捕获的深度和颜色信息。然后我们描述了该系统每个模块的技术细节和不同选择,即数据预处理(第2.2节)、相机姿态估计(第2.3节)和基本场景表示(第2.4节)。
虽然静态场景的RGB-D实时三维重建有许多不同的算法,但大多数方法都有一个非常相似的处理框架,如图:
低成本相机的深度图像的噪声取决于各种参数,例如到获取对象的距离,或深度图像中的像素位置。处理噪声最常见的方法是,双边滤波器用于降噪,并使用有限差分(正向或中心)计算每点法线。根据模型表示、数据关联和姿势优化方法,进一步估计几何信息。这包括单个量程测量的噪声或可靠性信息,对应3D点的半径或主曲率。
位姿估计计算每个传入RGB-D帧相对于前一帧、到目前为止重建的模型或所有前一帧的6-DoF pose T。
早期关于离线3D形状注册的工作极大地启发了当前基于深度流的实时相机跟踪方法。
大多数依赖于frame-to-frame、frame-to-model或全局姿态优化的摄像机跟踪方法都需要识别单个帧和/或当前模型之间的对应点。将一组对应的点对输入优化,以找到可以获得最佳整体对齐的变换。从本质上讲,有稀疏的方法可以识别特定的特征点,也有密集的技术可以尝试找到(几乎)传入帧的所有点的对应关系。
在任何稳健的摄像机跟踪系统中,从跟踪故障中恢复是至关重要的一步。一些实现的方法如下:
三维模型 M 的表示需要非常有效地集成大量传入的距离图。除此之外,frame-to-model 跟踪需要一种有效的方法,从任意视点生成模型的虚拟视图,以便对齐传入的map和模型,主要使用投影数据关联。在一个常见的三维模型中,主要存在两种不同的表示方式来累积观测到的RGB-D数据。最常用的方法是将信息存储在规则或分层的三维体素网格中。或者,模型可以存储为累积的三维点集。
这张表是基于RGB-D的静态场景3D重建技术现状概述,当前的方法可以根据使用的场景表示、使用的摄像机跟踪器、使用的数据关联策略、对循环闭合的支持、流、对动态前景对象的鲁棒性以及它们的运行时性能来区分。
感兴趣的还可以下载原论文继续阅读后面的内容~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。