当前位置:   article > 正文

Manhattan-SDF:多视角图像三维重建方法(CVPR 2022)

不同角度 三维重建

作者丨郭浩宇@知乎

来源丨https://zhuanlan.zhihu.com/p/521725566

编辑丨3D视觉工坊

我们介绍一篇2022 CVPR Oral的三维场景重建论文:Neural 3D Scene Reconstruction with the Manhattan-world Assumption,该论文由浙江大学CAD&CG国家重点实验室/浙大-商汤三维视觉联合实验室提出。

81c85712fa33b4fae9c1a93c9d54738f.png
  • 论文链接:https://arxiv.org/abs/2205.02836

  • 论文代码:https://github.com/zju3dv/manhattan_sdf

  • Project page:https://zju3dv.github.io/manhattan_sdf/

1. 引言

1.1 论文的问题描述

输入在室内场景采集的图像序列,论文希望能生成该室内场景的三维模型。该问题有许多应用,例如虚拟与增强现实、机器人等。

4c3fe8e9a46c3134495af23e8fb26679.png

1.2 当前方法在这个问题的局限性

传统方法一般通过MVS(Multi-View Stereo) [1,2] 做场景重建,首先根据多视角匹配来估计每个视角的深度图,然后将每个视角的深度在三维空间中做融合。这类方法最大的问题在于难以处理弱纹理区域、非朗伯表面,原因是这些区域难以做匹配,从而导致重建不完整。

bc3fbb7b0af9dd2509291cf1bd520019.png

Multi-view Stereo via Depth Map Fusion: A Coordinate Decent Optimization Method

最近,有方法提出基于隐式神经表示做三维重建。NeRF [3] 通过可微分的体积渲染技术从图像中学习隐式辐射场。NeRF可以实现有真实感的视角合成,但是几何重建结果噪音很严重,主要是因为缺乏表面约束。NeuS [4] 和 VolSDF [5] 使用有SDF(向距离场)建模场景的几何,并实现了基于SDF的体积渲染,可以得到相比于NeRF更加平滑的几何重建结果。此类方法都是基于光度一致性原理,因而难以处理弱纹理区域,在室内场景的重建质量很差。

8ed6526aaf2ade7c3e76aa4e7420e026.png

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

1.3 我们的观察和对问题的解决

为了克服室内场景重建在弱纹理平面区域的歧义性,我们在优化过程中基于曼哈顿假设采取了相应的几何约束。曼哈顿假设是一个被广泛使用的室内场景假设,即室内场景的地面、墙面、天花板通常被对齐在三个互相垂直的主方向,基于此我们对地面、墙面区域设计了对应的几何约束。

自动驾驶中深度学习课程视频:自动驾驶中的深度学习模型部署实战

cb4dae0805502a50b032edad54301292.png

曼哈顿假设示意图

2. 论文方法

2.1 方法概述

论文使用神经隐式表示建模场景的几何、外观和语义,并从多视角图像优化该表示。具体步骤为:

  1. 使用可微分体积渲染技术,根据输入图像优化几何、外观。

  2. 预测墙面、地面的语义分割,并基于曼哈顿假设对这些区域采用相应的几何约束。

  3. 为了提升对语义分割不准确性的鲁棒性,我们提出联合优化策略来同时优化几何和语义,从而实现更高质量的重建结果。

2a19dfaae8ac8edee95f23a7d619308e.png

2.2 基于SDF的体积渲染

36d710f47421bc88d054fe5d40d7be00.png

2.3 几何约束

我们首先使用DeepLabV3+ [6] 在图像空间分割地面、墙面区域。对于地面区域的每个像素,我们首先做体积渲染得到对应的表面点,通过计算有向距离场在该处的梯度得到法向方向,设计损失函数约束其法向竖直向上:

e230b318fa2eefcb3c7eb33989e2c649.png

2.4 联合优化

几何约束在语义分割准确的区域可以起到很好的效果,但网络预测的语义分割在部分区域可能是不准确的,这会影响重建结果。如下图所示,由于语义分割不准确,导致加上几何约束之后重建结果变得更加糟糕。

d469cf030cbc0cee2e9cbc18f98eb23d.png

为了克服这个问题,我们在3D空间中学习语义场。我们使用体积渲染技术将语义渲染到图像空间,并通过softmax归一化得到每个像素属于地面、墙面区域的概率,我们利用这个概率来加权几何约束:

2f14024ee792b7bf003346f010ef5a2f.png

同时,为了避免trivial solution(属于地面、墙面的概率被降为0),我们同时也用2D语义分割网络的预测计算交叉熵作为监督

3. 实验分析

3.1 Ablation studies

通过定性、定量的实验结果,我们发现使用体积约束能够提升在平面区域的重建效果,但也会由于语义分割的不准确性导致一些非平面区域的重建变差,通过使用我们提出的联合优化策略,可以全面地提升重建结果。

0f588b8a6704ac9df4c801a7ce000133.png 6f7dbf1e6a1e63ca0ba0c99080455002.png

3.2 与SOTA方法的对比

我们在ScanNet和7-Scenes数据集上进行了和之前MVS方法、基于volume rendering的方法的对比,数值结果大幅领先于之前的方法。

61b0eed9e854e14ad47afa006c08b02d.png a155ec1df4bc08b227522e353c2d6db5.png

4. 参考文献

[1] Pixelwise view selection for unstructured multi-view stereo. In ECCV, 2016.

[2] Multi-view stereo via depth map fusion: A coordinate decent optimization method. Neurocomputing, 2016.

[3] Nerf: Representing scenes as neural radiance fields for view synthesis. In ECCV, 2020.

[4] NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction. In NeurIPS, 2021.

[5] Volume Rendering of Neural Implicit Surfaces. In NeurIPS, 2021.

[6] Encoder-decoder with atrous separable convolution for semantic image segmentation. In ECCV, 2018.

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

15.国内首个3D缺陷检测教程:理论、源码与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

c6bc173c65c84f675ebb92744954bb21.png

▲长按加微信群或投稿

9acadc7847906cb4f6748d347e26ea4e.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

3e881fd2f71ca26157015f3ec4fd0d1d.png

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/127797
推荐阅读
相关标签
  

闽ICP备14008679号