赞
踩
[1] Eigen D , Puhrsch C , Fergus R . Depth Map Prediction from a Single Image using a Multi-Scale Deep Network[J]. MIT Press, 2014.
本文是首次利用CNN估计单目图像深度的论文,主要分为两部分:1)全局深度估计;2)局部特征深度精估计,同时在损失计算上提出了尺度不变误差。
其实就现在的眼光来看,这个网络结构挺简单的。作者首先将输入图输入Coarse网络,通过卷积、池化和全连接,最终得到粗略级深度估计。然后又将输入图送入Fine网络,经过Fine1运算后,将结果和Coarse的粗略级结果cat在一起,再通过剩余几个Fine模板,得到最终的深度估计图。
该网络用于学习输入图的全局信息,可以看到网络的最后两层是全连接层,即通过两个全连接层来整合全图视野,将最后一个卷积层产生的多个区域的特征图经行融合,让网络对这个图的深度有个大概了解。
展示Coarse7输出,a是KITTI数据集,b是NYUDepth数据集。
红色代表更远,蓝色代表更近,黑色代表距离为0。KITTI数据集中通常显示道路两侧的深度变化;NYUDepth数据集通常显示墙壁位置和门口。
Fine网络接受Coarse网络的结果,FIne除了第一层使用了pooling层,其他层仅使用卷积层。
先训练粗糙网络,再训练精细化网络
没懂
Depth Map Prediction from a Single Image using a Multi-Scale Deep Network(NIPS2014)论文阅读:尺度不变误差
首先 y y y是预测值, y ∗ y^* y∗是gt值:
作者定义了尺度不变均方误差(scale-invariant mean squared error ):
其中:
故最终:
训练时Loss定义为:
会发现与上面的D多了个λ:
但是作者使用了λ=0.5,因为实验发现这样产生了好的绝对尺度预测,同时稍微提高了输出的质量
先定义指标含义:
上式描述了一个阈值指标,表示预测值和gt值倍数在一定阈值内的像素个数的百分比,比如预测值=5,gt值=4,则max()=1.25,我们希望这个max逼近1.所以thr越小,这个百分数越高,证明预测值和gt越近,且所有像素和各自gt值接近的整体情况越好。
上式描述了绝对相对(因为除了
y
∗
y_*
y∗)差,这个预测值和gt值越接近,则该值越小。
上式和上上式差不多,只不过变成了平方相对差。
上式都不用说了,对于第三个其实就是
上图展示在NYUDepth数据集上的各算法对比
上图展示了和m3d的效果比较,并给出了不同loss训练出来的网络的效果。总之使用了l2的尺度不变误差效果更好。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。