Taylor Guo, 2017年9月24日

Matterport3D: Learning from RGB-D Data in Indoor Environments

mpview is a C++ application for parsing and viewing houses in the Matterport3D dataset.




3.1 数据获取过程


数据集中的每个环境,操作人员拍摄的一组全景在可行走的户型图的区域上都统一间隔2.5米。用户用iPad App标记窗户和镜子所在的位置,并把数据传给Matterport。Matterport对原始数据做以下处理:





3.2 语义标注







3.3 数据集的特性





图6:点云可视化(从左到右:色彩,diffuse shading,法线)。这些图片表示根据相机位姿将像素从所有RGB-D图像上重投射回世界空间中。注意全局配准的精度和表面法线的相对低噪声,不需要深度融合技术。








4 数据深度学习


4.1 关键点匹配





4.2 视图重叠区域估计




训练一个卷积神经网络(ResNet-50)将图像特征提取出来,特征之间用L2距离表示更高的重合度。训练这个模型的损失函数是距离比率损失函数【19】。重叠区域函数取值在0到1之间。在三联体神经网络头上添加回归损失函数可以将重叠区域 回归到 匹配的图像对上(重叠比率大于0.1)。






4.3 表面法线估计


Matterport3D数据集中的法线可以用来训练更好的模型来预测法线。我们采用了【48】的模型,在NYUv2数据集上获得了更好的结果。这个模型是一个全连接的卷积神经网络,由一个编码器,( 与VGG-16的架构完全一样,从开始到全连接层,) 和一个纯对称的解码器组成。



