赞
踩
Monocular Depth Estimation UsingLaplacian Pyramid-Based Depth Residuals英文注解:
基于拉普拉斯金字塔深度残差的单目深度估计英文注解-行业报告文档类资源-CSDN下载
Monocular Depth Estimation UsingLaplacian Pyramid-Based Depth Residuals全文翻译PDF:
基于拉普拉斯金字塔深度残差的单目深度估计是一篇优秀的CVPR论文-行业报告文档类资源-CSDN下载
Monocular Depth Estimation UsingLaplacian Pyramid-Based Depth Residuals全文翻译:
基于拉普拉斯金字塔深度残差的单目深度估计是一篇优秀的CVPR论文-行业报告文档类资源-CSDN下载
摘要:随着深度神经网络生成模型的成功,单目深度估计被广泛应用于各种编码器和译码器结构中。然而,以往大多数方法的解码过程重复了简单的上采样操作,可能无法充分利用良好编码特征的底层特性进行单目深度估计。为了解决这一问题,我们提出了一种简单而有效的方案将拉普拉斯金字塔加入解码器架构。具体地说,将编码特征送入不同的流中对深度残差进行解码,深度残差通过分解定义并将相应的输出逐步组合,重建出由粗到细的最终深度图。这对于精确地估计深度边界以及全局布局是相当可取的。我们还提出将权值标准化应用于解码器结构的预激活卷积块,这对改善梯度流有很大帮助,从而使优化更容易。在各种室内和室外环境下构建的标准数据集上的实验结果表明,与现有模型相比,该方法对单目深度估计是有效的。代码和模型可以在: https://github.com/tjqansthd/LapDepth-release。
指数项-单目深度估计,深度残差,深度边界,拉普拉斯金字塔,权重标准化。
在现实世界的许多应用中,从单目图像进行深度估计一直是一个关键的任务。例如,基于深度信息的统计可以有效地估计消失点的水平边界或位置,这对于快速理解给定场景非常有用。这些线索在解释三维几何布局时往往具有显著的优势,因此推断深度信息在自动驾驶系统领域已变得至关重要。由于这种丰富的可能性,许多研究者投入了大量的努力来解决单目深度估计的问题。
在早期,基于人类感知的特征被广泛利用。例如,边缘方向的趋势和频率系数的分布与感知深度特征密切相关,从给定图像[1]的局部区域进行聚合。准确地从这些特征中提取统计信息,通常采用图像分割作为预处理步骤[2],[3]。另一方面,全局和特征的集成方案在场景识别[4]、[5]和深度估计中都得到了重视。例如,有几项研究试图根据给定的彩色图像与其他场景的整体和局部结构相似性来选择合适的深度值,然后进行优化过程,以细化深度估计图像[6],[7]的可见性。尽管最近利用这些精心设计的特征的方法在估计深度信息方面取得了重大进展,但它们仍然缺乏仅凭一张图像就预测颜色和深度值之间复杂关系的能力。
由于深度神经网络生成模型(deep neural network, DNN)的巨大成功,许多研究者开始将深度估计问题表述为图像平移问题,即从彩色图像到深度图像的平移问题。为了提取与深度信息相关的底层特征,卷积神经网络(CNN)被广泛采用作为生成模型的主干架构。基于包括各种现实环境的大规模数据集,如KITTI自动驾驶数据集[8]和NYU深度数据集[9],通过深度堆叠架构可以很好地编码颜色和深度值之间的关系。一般情况下,深度信息是通过三维传感器进行扫描的(如LiDAR, Kinect等)被用作监督学习方法的基础。另一方面,也有一些尝试利用立体输入在无监督的方式进行单目深度估计[10],[11]。 尽管基于DNN的方法在没有任何领域知识的情况下显示出了揭示深度布局的强大能力,但它们仍然在深度边界出现模糊。具体来说,现有的方法大多利用了从知名编码器中提取的特征,如VGG、ResNet等。这些潜在特征通过对称结构的解码过程被简单地向上采样回其原始大小,最后转换为深度图。这种转换过程很难考虑不同尺度层次上对象的深度边界,因此可能会在对象边界之间产生不准确的深度值。
为了解决这些问题,我们提出了一种新颖而简单的单目深度估计方法。该方法的核心思想是利用基于拉普拉斯金字塔的解码器结构,精确解释编码特征与最终输出之间的关系,用于单目深度估计。拉普拉斯算子因其保留给定数据[12]的局部信息的能力而被广泛应用于场景理解的各个领域。我们的想法受到了拉普拉斯金字塔的启发,它成功地强调了不同尺度空间的差异,这与物体边界高度相关。具体地说,编码特征被送入堆叠的卷积块,在每个金字塔层产生子带深度残差。结合每个金字塔层的深度残差,从粗到细的尺度逐步恢复深度图。该恢复过程有助于提高深度边界的预测性能。我们不只是重复上采样操作来恢复到原始分辨率,我们建议用输入的彩色图像的残差来指导解码过程,这些残差来自于拉普拉斯金字塔的不同层次,并结合预测结果(即深度残差)由粗到细,逐步重建最终的深度图。基于多层深度残差解码方案,我们可以更有效地利用编码特征来估计复杂场景中的深度信息。此外,我们还提出了将权值标准化应用于预激活卷积块,这对于改善梯度流和使收敛稳定而不损失性能是非常有效的。图1所示为用本文方法进行深度估计的实例。所提出的方法的主要贡献可归纳如下:
图1所示:从上到下:输入彩色图像、地面真实值和本方法的估计结果。注意,左边的两个示例来自KITTI数据集[8],而右边的属于NYU Depth V2数据集[9]。
•我们建议采用拉普拉斯金字塔法来解决单目深度估计的问题。该方法通过对拉普拉斯金字塔不同层次的编码特征进行深度残差恢复,并逐步汇总预测结果,成功地恢复了深度边界等局部细节以及全局布局。
•通过对预激活的卷积块(我们的解码器架构的基本模块)进行权值标准化,可以有效地提高梯度流,从而可以稳定地训练网络来估计大部分值为零的深度残差,即稀疏的深度残差。
•我们展示了在复杂的室内和室外环境下构建的基准数据集上的各种实验结果,并展示了与现有方法相比,所提出的方法的效率和鲁棒性。
本文的其余部分组织如下。第二部分简要回顾了相关工作。所提出的方法将在第三节中解释。在基准数据集上的实验结果和消融研究报告在第四节。结论在第五节之后。
II.相关工作
在本节中,我们对以往的单目深度估计研究进行了比较回顾,可分为两大类,即手工特征方法和基于深度学习的方法。
A.手工特征方法
早期的工作主要是利用从给定的彩色图像中获取的统计特征进行单眼深度估计。作为第一步,Torralba和Oliva[1]根据深度变化探究了光谱量级的性质。Saxena等[3]利用平面布局(包括三维位置和方向)预测深度值,该平面布局基于马尔可夫随机场(MRF),结合边缘方向、色值等几种纹理特征估计深度值。Chun等人[13]利用地面区域的位置信息,例如到最高处楼点的相对距离,从一个室内场景估计深度图。最近的方法集中于通过计算与其他场景的结构相似性来找到给定图像的适当深度值,这些场景已经有了真正的深度信息。Karsch等人[6]提出通过检查光谱系数的相似性来寻找候选深度,并使用翘曲技术(即SIFT flow[14])对其进行细化。在[15]中,作者专注于深度梯度,应用于基于泊松的深度重建,而不是直接在训练样本中寻找最佳候选(即捕获的深度图像)。Herrera等[16]利用基于簇的学习方案,试图解决从训练样本粗到细选择最优深度的问题。然而,基于patch的聚合策略往往不能清晰地扭曲复杂场景的几何结构,导致估计结果模糊。
B.基于深度学习的方法
在初始阶段,Eigen等人[17]首先设计了一个基于DNN的两阶段模型。具体来说,他们首先基于深度叠加卷积神经网络(CNN)预测深度图像的粗结果,并将粗结果和原始彩色图像作为第二CNN流的输入,对局部细节进行细化。虽然在编码过程中由于池化操作的多次重复导致估计结果模糊,但它显示了基于DNN的单目深度估计方法。在[17]的性能公布之后,人们开发了各种编码器-解码器架构,以更准确地推断给定图像中颜色和深度值之间的关系。特别是条件随机场(CRF),允许局部区域之间的亲和成对的方式,已被用于与超像素的分割技术,以提高估计结果[18],[19]的可见性。Gan等人[20]还将亲和层嵌入到编码器-解码器架构中,以便更有效地考虑局部和全局上下文。Xu等人[21]提出了一种深度架构,通过集成多个CRF级联,融合来自多尺度CNN输出的互补信息。另一方面,一些研究人员探索了无监督或半监督学习方案的单目深度估计,使用基于差异的一致性,这是通过立体重建损失[11],[10],[22]计算。具体地说,Garg等人[11]预测了通过深度的视差图然后用另一个视角进行简单的逆翘曲,计算重建损失。Godard等人[10]提出了使用从预测差异扭曲的左右图像进行一致性损失的建议。Kuznietsov等人[22]试图通过使用直接的图像对齐损失来改进估计结果,即使是在地面真实深度稀疏的情况下。最近,Fu等人[23]利用有序回归估计深度边界与特征密集提取的深黑色空间金字塔池化(ASPP)方案[24]。Cao等人[25]提出将连续深度值离散化,将深度估计问题进行分类,并以概率分布的形式得到预测深度图的置信度。在[26]中,作者提出了一种学习策略,在使用立体匹配算法构建的相对深度数据集上预训练深度网络,然后用地面真实深度对模型进行微调。Mohaghegh等人[27]引入了一种数据驱动的方法,该方法从预训练的模型中提取深度图的全局形式,并通过将图像块映射到深度值来细化深度图。Zuo等人[28]将多尺度强度引导应用到全局和局部残差学习方案中进行深度增强。除了从给定的二维图像预测深度图的一系列方法外,三维物体的直接重建也得到了积极的研究。Ma等[29]提出了带注意模块的通道-空间分离卷积,自适应融合通道信息和空间信息,提取目标的丰富表示。
尽管基于DNN的生成模型在单目深度估计中取得了显著的性能提升,但由于解码方案效率低下,导致深度边界处的伪影模糊,因此生成模型仍然不能充分利用编码良好的特征的底层特性。这些方法主要是采用各种方法对深度信息进行从粗到细的预测。然而,由于深度图仅根据最终的空间分辨率估计,因此它们仍然难以清晰地保留不同比例层次上物体的深度边界。与这些方法不同的是,我们建议在解码过程中应用拉普拉斯金字塔,通过不同的尺度空间逐步恢复深度边界。
III.所提方法
我们提出的方法旨在通过在解码过程中应用基于拉普拉斯金字塔的分解技术,成功地恢复局部细节(即深度边界)以及深度地图的全局布局。其中,输入彩色图像导的拉普拉斯残差编码特征生成包含局部细节的深度残差,可以适当地表示不同尺度空间的深度属性。为了提高解码效率,我们还对预激活卷积块进行了权值标准化,这对深度残差的估计提供了很大的帮助,深度残差的值大多为零。在本节中,我们首先介绍所提出的用于单目深度估计的解码器的整体架构。然后,详细介绍了在权重标准化的作用下的整个解码过程。最后,我们将解释用于训练所提议的体系结构的损失函数。
该方法的总体结构如图2所示。我们的网络由预训练的编码器和提出的用于恢复深度残差的解码器组成。编码器部分可以使用任何架构来设置,如:VGG [30], ResNet [31], DenseNet[32]等。在我们的实现中,我们采用了ResNext101[33],对其进行了预训练,用于图像分类。在编码器端,输入的彩色图像通过深度叠加的卷积块被高度压缩为潜在特征。这些特征的空间大小变得非常小(在我们的实现中是原始分辨率的1/16),然而,这些特征紧凑地包含了嵌入空间中颜色和深度值之间的关系,这是从不同的场景几何中学习的。为了更密集地获取上下文信息,我们采用DenseASPP技术[34],编码器的卷积块采用3、6、12、18四种扩张速率。
图2所示.提出的单目深度估计方法的总体结构。S表示输入图像的空间分辨率。从Laplacian金字塔的最高层次即R5恢复的深度残差被上采样(×2),随后使用逐点加法与更细尺度的深度残差相结合。请注意,为了更好地显示,除了输入的彩色图像外,所有图像的值在这个图中都是倒置的。
该译码器被划分为拉普拉斯金字塔的多个分支。一个分支,负责最高层次的拉普拉斯金字塔(参见图2中的Layer4) 执行解码任务恢复深度图的全局布局。其他分支生成深度残差(图2中从R4到R1),潜特征由输入彩色图像对应尺度的拉普拉斯残差(图2中从L4到L1)引导。该深度残差与中间深度图逐渐结合,中间深度图是利用逐点加法从拉普拉斯金字塔的更高层次获得的输出。如图2所示,我们利用五层拉普拉斯金字塔进行解码过程。译码器中所有卷积层的滤波器大小设为3 × 3。所提方法的结构细节也如表一所示。整个解码过程将在下一小节中进行解释。
TABLE I
(UP:上采样因子,CHANNEL:每个块的输入输出通道数,IN和OUT:输入输出的空间分辨率,INPUT:每个块的输入,LEV:拉普拉斯金字塔的水平指数)
注:⊕和*分别表示拼接和上采样(×2)。S表示原始图像的空间分辨率。F(B)表示对应块B的输出。
首先,我们计算输入的彩色图像的拉普拉斯残差,即Lk,如下:
Lk = Ik - Up(Ik+1); k = 1; 2; 3; 4; (1)
其中k表示拉普拉斯金字塔的水平指数. Ik是对原始输入图像降采样到1/2k-1比例得到的。Up(·)表示上采样函数(×2),我们对所提方法中的所有调整大小过程都采用双线性插值。现在,设Rk为第k层金字塔得到的深度残差,该深度残差的生成方法如下: 首先,将潜在特征xk与深度残差的上采样版本Lk拼接,由拉普拉斯金字塔的第(k + 1)级得到(见图2)。随后,这些拼接的特征被送入堆叠的卷积块中,相应的输出被像素级地再次添加到Lk中。这个过程可以表述如下:
Rk = Bk([xk; Lk; Up(Rk+1)]) + Lk; k = 1; 2; 3; 4; (2)
这里[xk; Lk;Up(Rk+1)]表示xk、Lk、Up(Rk+1)的拼接。Bk由叠加的卷积块组成,产生的单通道输出的空间分辨率与Lk相同。值得注意的是,Lk引导解码过程准确还原各种尺度空间的局部细节,从而在不模糊工件的情况下对揭示深度边界有很大帮助。最后,从拉普拉斯金字塔的最高层次逐步重建深度图,如下所示:
注意,D~5被设为R5, R5包含了深度图在最高金字塔层的全局布局,如图2所示。通过迭代计算(3),阶为k =4-->3 -->2 -->1, D~1计算为最终的深度图。图3显示了在第k个金字塔层次和最终深度图上生成的深度残差的例子。可以看出,在不同尺度下预测的深度残差很好地揭示了根据场景几何的深度属性。
为了使单目深度估计的解码过程更高效,我们还提出在预激活卷积块中进行加权标准化,卷积块是所提译码器的基本模块,如图4 (c) 所示。由于深度图是基于深度残差的迭代求和重建的(见(3)),因此预测的深度残差应平衡包含负值和正值,以稳定、准确地估计深度信息。而典型的卷积块,是由convolution--->normalization--->activation,如图4(a)所示,在最后一步的整流线性单元(ReLU)激活的非线性特性中,丢弃了大部分负值。尽管采用了预激活卷积块[35]来缓解这一问题(见图4(b)),由于深度残差是稀疏的(即大部分深度残差为零,如图3所示),卷积滤波器的权值在变化很小的情况下仍然趋于零。这可能会导致训练过程中出现梯度消失问题。
图4所示.(a)典型的卷积块。(b)预激活卷积块[35]。(c)加权标准化的预激活卷积块。注意,WS表示权重标准化。
图5所示.最后一个用于估计R1的卷积块中的权重分布如图2所示。注意,其他conv(或deconv)块显示了类似的权值分布。
通过在进行卷积运算之前简单地放入权重标准化[36]模块(见图4(c)),本文提出的解码器可以通过反向传播过程中的归一化来成功地提高梯度的流量,反向传播过程从拉普拉斯金字塔的每一级计算得到梯度。这对于保持基于残差信息的颜色-深度转换的稳定性是相当可取的。图5显示了权重标准化对单目深度估计的影响。很容易看出,在所提出的方案中,权值分布广泛而均匀,而大多数权值在没有权值标准化的情况下保持在零附近。同样,以前的卷积块在这方面通常对估计深度残差没有帮助。通过利用这一优势和基于拉普拉斯金字塔的分解方案,认为提出的方法可以成功地学习颜色和深度值之间的复杂关系。
C .损失函数
基于我们的损失函数Lt对网络的可训练参数进行优化,该损失函数由数据损失Ld和梯度损失Lg两部分组成,如下所示:
其中y和y∗分别表示预测的深度映射和地面真实值。α和β表示Ld和的平衡因子L g,通过大量实验分别设置为10和0.1。注意,梯度损失是在30个epoch之后计算的,因为在训练开始时,由于地面真值的稀疏性,同时使用数据和梯度损失时,KITTI数据集中的训练往往不稳定。具体来说,由插值深度图计算的深度梯度与原始深度图略有不同,干扰了数据损失的收敛。为了缓解这一问题,只使用数据损失进行适当的深度图恢复后,再额外计算梯度损失。
1)数据丢失:一般情况下,由于3D传感器的限制,近距离采集的深度数据比较密集,而距离较远的深度数据比较稀疏。为了缓解不平衡的问题,我们采用[17]中引入的损失函数的平方根作为数据损失Ld,它计算预测深度值与地面真实值在日志空间中的差值,如下:
其中di = logyi−logyi *, V是深度图中的一组有效像素。NV表示有效像素的总数。采用与[37]相同的方法将平衡因子λ设置为0.85。
2) 梯度损失:为了增强局部细节,特别是在深度边界,我们利用深度图的梯度作为损失函数。由于地面真值的稀疏深度数据,在水平方向和垂直方向上的梯度都难以精确计算,因此点插值采用了以往方法中常用的[9]提供的Matlab工具包。梯度损失公式为:
式中m(·)为[9]中使用的插值函数。yh,i和m(y∗)h,i分别表示估计深度图的第i个梯度值和在水平方向上插值的地面真值。与之类似,yv,i和m(y∗)v,i在垂直方向上定义。N为估计深度图中包含的像素总数。值得注意的是,我们的梯度损失有一个影响,迫使局部边缘在多层次金字塔精确对齐,从而使深度边界清楚地显示在最终的深度图。可以看出,利用梯度损失预测的深度图成功地揭示了远处物体的深度边界。
图6所示。根据不同的损失函数组合,深度估计结果的视觉比较。(a)输入彩色图像。(b) Ld. (c) Ld + Lg。(d)地面真实值。注意,梯度损失有助于在深度边界上得到更可靠的结果。
IV.实验结果
在本节中,我们通过在两个广泛使用的基准数据集上进行的各种实验来评估所提方法的性能,即KITTI[8]和NYU DepthV2[9]数据集,分别在不同的室内和室外环境下构建。
该方法在PyTorch框架[38]上实现。所提出的解码器的所有参数(即网络权值)根据[39]中引入的策略进行初始化。提出的解码器的每一层都包含组归一化,这是已知的独立于批大小。对于批大小为16的50个epoch,使用AdamW优化器[40],值和动量设置为分别为0.9和0.999。编码器的权衰减因子设为0.0005,所提解码器的权衰减因子设为零。学习率首先设置为10−4,然后通过多项式衰减0.5次幂直到10−5。使用4块NVIDIA GeForce Titan Xp GPU对提出的网络进行训练需要16个小时。我们采用ResNext101[33]作为特征提取的编码器,基于ILSVRC[41]数据集,通过预训练模型初始化特征参数。我们修正了前几层的参数,因为这些层经过良好的训练,可以通过使用不同的自然图像来提取底层特征(例如,边缘,角落等)。编码器中所有批处理归一化层的参数也固定为预训练值。编码器和解码器的参数大小分别为58M和15M。
在训练阶段,对数据进行在线增强以避免过拟合问题。具体来说,对于KITTI数据集,训练样本被随机裁剪为704 × 352像素,对于NYU Depth V2数据集,训练样本被随机裁剪为512 × 416像素,然后在[- 3,3]度范围内随机旋转它们。输入图像也以0.5的概率水平翻转。此外,输入彩色图像的亮度、颜色和gamma值是随机调整的,比例因子选择在[0.9,1.1]范围内。
1) KITTI: KITTI数据集[8]包含自动驾驶场景获取的各种道路环境。获得的图像分辨率为1242 × 375像素。为了进行性能比较,我们采用了Eigen等人引入的拆分策略。根据该方案,测试集由来自29个场景的697幅图像组成,而训练集由来自其余32个场景的23488幅图像组成。我们预测输出的最大值在测试阶段限制在80米以内,如KITTI数据集说明中解释的那样。我们还采用了[11]中采用的中心裁剪方案进行表现评价。
2) NYU Depth V2: NYU Depth V2数据集[9]由120K对RGB和深度图像组成,这些图像是使用Microsoft Kinect传感器在464个室内场景下捕获的,分辨率为640 × 480像素。我们应用了之前的训练/测试分割,其中包括249个用于训练的场景和来自其余215个场景的654张用于测试的图像,就像[17]中介绍的那样。由于RGB图像和对应的深度图没有完全同步,我们从249个场景中大量选择36253个样本进行训练。用该方法预测的深度图经过中心裁剪561 × 427像素(如[8]中引入的)与现有方法进行比较。
C.表现评估
为了证明该方法的有效性和鲁棒性,本文在两个基准数据集上进行了性能评估,即KITTI[8]和NYU Depth V2[9]数据集。首先,与最先进的方法进行定性比较的几个结果如图7和8所示。具体而言,以往的方法大多无法准确估计细物体的边界,如图7中的交通标志、人行道上的柱子等。在某些方法中,车辆的形状往往表现模糊,[22],[23]。尽管在[37]中物体边界估计得很好,但该方法仍然会在相对较高的位置出现模糊(见图7中第三个示例的结果)。相比之下,该方法能够可靠地提供各种道路环境下具有清晰深度边界的深度图。在室内环境中,在较短的距离内物体较多,因此深度边界与物体边界的关系较强,如图8所示。以往的方法往往会产生意想不到的深度变化,在各种物体复杂的边界上使估计结果模糊。特别是在图8的第1和第3个案例中,以往的模型都不能保持深度值在同一平面内的均匀性。此外,背景的复杂纹理导致以往的方法预测错误(见图8最后一个例子中的地面区域)。
在定量评价方面,我们采用了Eigen等人[17]引入的6个指标,这6个指标在单眼深度估计的性能评价中应用最为广泛,定义如下:
其中y和y∗分别表示预测的深度值和地面真实值。T是地面真实值中有效像素的总数。基于这些指标,我们在KITTI[8]和NYU Depth V2[9]数据集上与最新的方法进行了比较,相应的结果分别如表II和表III所示。注意,本文提出的方法的性能是针对原始velodyne数据和KITTI数据集中最近发布的带标注的地面真实数据进行评估的。我们使用652张测试图像来评估标注后的ground truth(剔除45张不具备相应ground truth的图像进行测试)。很容易看到,我们的结果在50m和80m的上限下取得了最好的性能,如表II所示。此外,本文方法还在NYU Depth V2数据集上提供了可靠的估计结果(见表III)。因此,我们认为基于拉普拉斯金字塔的深度残差对于从各种室内和室外环境中获取的彩色图像中准确估计深度信息是有效的。此外,该方法的处理分辨率为1242×375像素的速度约为32 fps,因此可以应用于各种实时应用。
图7所示.在KITTI数据集[8]上的深度估计结果。第1、8行:输入彩色图像。第2行和第9行:地面真实值。第3、10行:Godard et al. [10]的结果。第4行和第11行:Kuznietsov等人的结果。第5、12行:Fu等人的结果。第6、13行:Lee等人的结果。第7、14行:本文方法的结果。
图8所示.在NYU depth V2数据集[9]上的深度估计结果。第一行:输入彩色图像。第二行:地面真实值。第三行:Laina et al.[45]。第四行:Fu等[23]测定结果。第5行:Lee等人的结果。第六行:本文方法的结果。
表II
在KITTI数据集[8]上使用EIGEN等人[17]的测试分割对不同的CAPS进行定量评价。∗表示使用官方标注的地面真实值(默认值:使用原始velodyne数据)来评估性能。注意我们使用GARG等人介绍的裁剪策略
注意:以粗体文本突出显示最佳性能。
表II
纽约大学深度v2数据集[9]的定量评估
图9所示。根据金字塔层次数的解码器结构的变化。(a)无金字塔 (b)三级(c)五级(所提方法)。注意,D~1表示最终的深度图。
D. 消融实验
本节将在KITTI数据集上进行对比实验,验证所提框架的有效性,即基于拉普拉斯金字塔的解码器和基于权值标准化的预激活卷积块。图9所示为解码器结构根据不同金字塔层次数的变化。注意,非金字塔解码器如图9和表4没有像拉普拉斯金字塔那样产生残差。如表4所示,使用更多的层数将特征分解为拉普拉斯金字塔,有利于精确恢复局部细节,也有利于深度图的全局布局。为了在相同的条件下进行实验,由于6级和7级拉普拉斯金字塔的情况受GPU内存的限制,所有的架构都以较小的批大小(16—>8)进行训练。从表四的第六和第七行可以看出,性能略有改善,然而,随着金字塔级别增加超过5级,性能已经接近饱和。因此我们认为深度图的全局布局在五级拉普拉斯金字塔上得到了充分的还原。对于6级金字塔和7级金字塔,解码器的参数大小分别比5级金字塔增加10M和18M,但性能提升很小。另外,我们对卷积块的变式进行了测试,结果如图10和表5所示。通过对预激活的卷积块进行权值标准化,解码过程在损失收敛性和估计精度方面都有了明显的提高。我们可以看到,梯度流的改进对于正确预测深度残差是很重要的,深度残差是相当稀疏的(见表五)。具体而言,通过使用我们的卷积块(即预激活+加权标准化),所提出的基于拉普拉斯金字塔的解码器的训练损失可以稳定收敛,而不会出现显著的振荡,如图10所示。如图11所示,测试损耗和测试精度也以与训练阶段相似的趋势收敛。注意,测试精度是在“δ < 1:25”的情况下测量的,它被用于对KITTI数据集的定量评估。我们还用6个主流框架(即MobileNetV2、VGG19、Ineptionv3、ResNet-101、DenseNet-161和ResNext-101),其他设置保持不变,相应的结果如表7所示。可以看到,提出的解码器显示可靠的结果,无论编码器结构。特别是,基于MobileNetV2的模型显示只有2.4%的精度下降“δ < 1.25”,而它包含20%的参数数量,并显示6帧/秒的速度比基于ResNext-101的模型。该解码器的参数大小确定在15M左右,可广泛应用于各种骨干编码器。最后,根据网络结构的变化,按金字塔类型进行性能分析。基于高斯金字塔的解码器尝试恢复深度图在每个对应比例尺上的布局。这比解码器在不使用金字塔结构的情况下,简单地在原始比例尺上生成最终的深度图显示了更好的性能。然而,这种结构缺乏连接尺度空间之间高频信息的能力。基于特征金字塔网络(FPN)[48]的解码器通过提取包含语义强特征和底层特征的特征图,有助于更精确地预测深度值。虽然基于FPN的解码器比基于高斯的方法提高了预测性能,但由于深度图的尺度空间之间缺乏直接的连通性,它仍然不能反映尺度方差。与这些方法不同的是,该解码器在拉普拉斯金字塔的每一层产生深度残差,并利用跨尺度空间的差异,这与物体边界高度相关。实验结果表明,本文提出的基于不同金字塔结构的深度残差算法优于其他基于不同金字塔结构的方法,结果如表6所示。实验结果表明,本文提出的基于拉普拉斯金字塔的深度残差算法为单目深度估计奠定了基础。
表V
对该方法在kitti数据集上根据卷积块的变化进行性能分析
表VI
根据解码器结构的变化,对该方法在kitti数据集上的性能进行了分析
注意:除解码器结构外的所有设置都是相同的(例如,骨干编码器,训练调度,超参数等)。
图10所示.根据所提出的解码器中卷积块的各种设置的损失收敛比较(颜色最佳视图)。
图11所示.根据所提出的解码器中卷积块的各种设置的测试损失和精度的收敛(颜色最佳视图)
V.结论
本文提出了一种基于单目图像的深度估计新方法。该方法的关键思想是通过利用拉普拉斯金字塔来分解解码过程,充分利用良好编码特征的底层属性。此外,为了提高译码过程的效率,我们提出在译码器的预激活卷积块上采用加权标准化,这改善了梯度的流动,从而有助于生成具有清晰深度边界的可靠深度图。在各种室内和室外环境下构建的基准数据集上的实验结果表明,该方法对单目深度估计是有效的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。