赞
踩
原文地址:CVPR-PDF
输入同一场景的非结构无序图像(往往包含数百张,在一些网络数据中甚至包含光照、像素尺寸不一致的图像)以及相对于世界坐标系的内外参矩阵,得到每张图像的深度图和对应于目标图像的像素级视角选择图(以往的方法对于不适合的视角选择往往直接通过图像级别的选择),进而为三维模型的融合和建模提供基础数据。
不是。最主要的问题来源于双目立体问题的深度估计模型。双目立体易于极几何建模,但是没有任何冗余的信息来支持遮挡区域的深度信息,因为双目立体视觉的深度估计图一定是有一些不可避免的裂痕的。所以,引入多张图像来恢复遮挡区域的信息就很自然。已有很多的研究人员通过最小匹配损失、马尔可夫随机场优化、基于色彩梯度的概率图模型、隐马尔可夫随机场联合可见性和深度建模等等方法进行多张图的深度估计。
通过基于块匹配的像素级视角选择和深度估计可以实现较好的多视图深度估计问题(MVDE),依据特殊的概率图建模,可以基于GPU加速推理过程。
与三维建模相关的研究:VSLAM和SFM,其中VSLAM是SFM的一种工程化离线的变体,其更加侧重于实时性与定位,而SFM侧重于通过离线的不断优化,恢复较为准确的多张图像的空间相对位置。而MVDE一般被认为是SFM系统的一个补充的系统,即将原本基于SIFT特征点估计的深度对应关系尽可能扩散到图像的每一个有效的像素中。
现有的研究MVDE方法角度来分,主要有基于深度学习的纯模型训练方法、以及基于概率建模的传统推理方法。
1、依据:正确的深度假设具有空间平滑性
2、基于块匹配建立了单像素块似然函数
假设(其中包含深度假设
θ
\theta
θ和可见度隐变量
Z
Z
Z):
P
(
X
l
m
∣
θ
l
,
Z
l
m
,
X
l
r
e
f
)
=
{
1
N
A
e
−
(
1
−
ρ
l
m
)
2
σ
2
if
Z
l
m
=
1
1
N
A
U
if
Z
l
m
=
0
3、利用变分推理
最大化整图的真实后验概率
(MAP):
m
i
n
i
m
i
z
e
q
(
Z
,
θ
)
K
L
(
q
(
Z
,
θ
)
∣
∣
P
(
Z
,
θ
∣
X
)
)
s
u
b
j
e
c
t
t
o
∑
Z
m
q
m
(
Z
m
)
=
1
,
m
=
1
,
.
.
.
,
M
.
4、算法的步骤
和迭代图
:
将同一场景的多张图像
与对应的内外参数
作为输入,运行算法,得到像素级视角选择图
和目标图像的深度图
。
定量测试数据集:Strecha datasets
(Fountain-P11 and Herzjesu-P9) [On benchmarking camera calibration and multi-view stereo for high resolution imagery. In CVPR, 2008.]
论文有必要的消融实验来验证不同构建的作用。
1、像素级视角选择的效果(对比对遮挡鲁棒的最佳K平面扫面算法
[Handling occlusions in densemulti-view stereo. In CVPR, 2001.])
2、运行时间的对比
3、对比SFM结构的可靠性对算法的影响;
4、对比网络多样数据集的影响;
1、贡献1:改善推理的方向,同时降低需要估计的参数的数量(3->1),非常有利于GPU
并行计算。
2、贡献2:建立深度计算和视角选择的概率图模型
,基于变分推理进行优化求解,将原本不可求的全概率分布转换为可求解的似然概率
。
1、只能估计深度,缺少法向量的估计;
2、是惰性推理学习,很难应对大量的数据规模;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。