赞
踩
第四篇写一下Depth Extraction from Video Using Non-parametric Sampling这篇文章中的Depth Transfer方法。
不同于其他主流方法,Depth Transfer并没有训练出特定的识别模型,而是通过把有标签数据与待预测样本进行点到点的对应,然后将深度信息进行迁移,形成深度估计结果。虽然诸如处理时间长、受训练集影响大等缺点十分显而易见,但这种思路仍然让人眼前一亮。其实如何能更好的利用有标签数据也是值得研究的方向,尤其是现在,深度网络的可解释性不高,我们不能确定拿到黑盒子里去训练一定能对宝贵的有标签数据进行有效利用,那不如换个方法。
言归正传,文章中提到Depth Transfer方法既能应用于单幅图像的深度估计,也能应用于视频的深度估计。显然,视频比图像多了时间前后文关系,因此文章的亮点就是如何利用有标签数据集和视频的前后文关系对图像的深度进行估计。
Fig.1
如Fig.1所示,算法主要分为三个步骤:
相似的场景会对应相似的深度,Depth Transfer方法建立在这个基础之上。
candidate的选取:
优化深度估计:
通过选取和wraping,为input产生了K(candidate个数)个像素级的深度估计结果,接下来讲解如何利用所有预测结果对深度估计进行优化。
Eq.1
Eq.1为Depth Transfer方法的Loss,通过最小化Loss可以得到最优估计。其中L为input图像,D为深度估计结果,Z为概率归一化常数,alpha=10,beta=0.5。
E(D)包含三部分,其中Et表示数据特性,Es表示平滑特性,Ep表示数据集特性。
Eq.2
Et可用来衡量深度估计D与每个wrap后的candidate深度的相似性,其中Phi为L1范式。公式第二部分是为了最小化x,y两个方向的梯度差异。
Eq.3
Eq.4
Eq.3和Eq.4分别为Es和Ep的计算方法,其中Prior P为数据集中全部图像的均值。
视频比单幅图像多了时间前后文关系,因此在对视频的深度估计进行优化时,在Eq.1的基础上增加了Ec和Em两部分,以保证:
Eq.5
Eq.6
Eq.7
其中,Ec为时序关系,Em为运动线索。通过计算同一时间序列上有前后关系的每两张图片的光流变化控制其时序连续性。
同时,对视频中的运动物体进行检测提取并对其进行接地约束(运动物体与地面接触),在此过程中通过判断pixel和背景的差别来检测运动的物体。
Depth Transfer的缺点是处理时间较长(每帧图片需要1分钟)并且受有标签数据集影响大(当数据集包含较多图像时搜索时间成倍增长),优点是对运动物体的深度估计有很好的效果,因此比较适用于电影2D转3D等主要物体比较明确的场景。
这篇文章非常长,因为包括了方法的介绍、数据集的介绍以及非常丰富的实验对比,还有很长的附加文档。之所以挑出这篇来写,是因为我在那么多深度网络的图像处理论文里总觉得自己要迷失了,总是思考一直对一个黑盒子进行微调到底是不是正确的方法,而这片文章正好给了一个全新的思路。有时候规律是潜藏的,我们没有发现之前总觉得它不存在,假若我们的生活场景能够分解成特定的几种模式的话,只要用比较简单的寻找-对应就可以进行一切估计了。
[1] Karsch K, Liu C, Kang S B. Depth Extraction from Video Using Non-parametric Sampling[C]// European Conference on Computer Vision. Springer, Berlin, Heidelberg, 2012:775-788.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。