当前位置:   article > 正文

论文笔记 - CFNet: Cascade and Fused Cost Volume for Robust Stereo Matching. CVPR 2021_cfnet立体匹配

cfnet立体匹配

论文笔记 - CFNet: Cascade and Fused Cost Volume for Robust Stereo Matching.

本文是2021年CVPR的一篇文章,针对双目立体匹配任务。文章数提出了一种级联+融合的cost volume构造和回归策略,从而获得了高精度、对数据高鲁棒性的立体匹配结果。
本文的切入点主要针对立体匹配的鲁棒性,指出由于数据集之间的差异以及视差分布的差异,导致很多算法只能在特定数据集获得很好的结果,迁移性和泛化性不足,这也严重制约了很多算法模型在真实场景的应用。因此,本文提出了CFNet采用融合+级联的方式提升立体匹配算法的鲁棒性。文章通过对低分辨率的全局特征构造的cost volume进行融合,从而提取鲁邦的结构性表达,实现初始视差的估计;其次,文章提出了级联的方法解决不平衡的视差分布。文章提出了基于方差的不确定度估计,在级联的每个阶段基于当前视差图计算不确定度从而自适应调整下一阶段的视差搜索范围,裁减掉不正确匹配的范围。级联的方法通过减小搜索范围和提高分辨率,实现了coarse-to-fine的视差图优化。

论文位于paper, 代码位于code

1. Introduction

文章提出,立体匹配是计算机视觉很多应用的基础研究,基于深度学习的方法近年来发展迅速也取得了很好的表现。但是由于不同数据集之间的差异,很多方法只能针对特定数据集。但是真实场景的应用需要模型具有很好的泛化能力。因此推动实现鲁棒以及模型跨数据集的表现是很有必要的。
设计一个鲁棒的立体匹配算法难点在于很多数据及之间域和视差分布的差异,比如室内室外、合成和真实等等。
本文提出了级联和融合cost volume结构来缓解上述的问题。(1)首先,文章提出了多个低分辨率稠密Cost volume融合的方法来增大感受野、获取全局和结构性的表达。本文指出先前的工作表明算法对不同数据集域敏感的主要原因是受限于网络的感受野。受此启发,文章提出了不同尺度的低分辨率cost volume能够涵盖不同尺度的感受野,并且在促进网络注意不同尺度图像区域具有互补的作用。因此,本文提出将多个低分辨率下的稠密cost volume相融合,让网络学习跨数据集不变的场景几何信息。并且本文指出这样的操作对计算复杂度只有很小的增加。(2)为了平衡不平衡的视差分布,本文提出了级联的cost volume表达以及基于方差的不确定度估计,用于基于当前预测视差图自适应地为下一阶段调整视差搜索范围。因此模型只需要在初始设置上涵盖所有数据可能的最大视差范围,接下来会基于不确定度裁减掉可能性较小的视差范围,引导模型在下一阶段寻找更加可能的视差值。
简单来说,就是级联优化的每一阶段输出的视差图,会先计算不确定度,从而确定下一阶段的视差搜索范围;下一阶段就只在新确定的范围内进行视差的匹配,类似于一个从粗略到细致的调优过程。这一过程也伴随着分辨率的提高,可以避免由于数据分布造成的一些bias,每次迭代都排除了可能的误匹配点。
实验表明本文提出的CFNet取得了SOTA的表现。
作者总结贡献如下:
首先是提出了cost volume的融合方法,针对数据集跨域的差异;
其次提出了级联的结构,同时应用基于方差的不确定度来缩减视差搜索范围,应对不平衡的视差分布;
本文的方法取得了很好的效果。
在这里插入图片描述
文章展示了不同数据集在视差值分布上的差异。

2. Approach

网络结构示意图
整体网络框架包含特征提取、cost volume融合以及级联三个部分。
特征提取部分,采用了参数共享的类unet结构以及跨层连接,提取多尺度的图像特征,同时采用SPP结构否早分层语义信息。提取的特征图分辨率(以高、宽比例计算)分别是原图的1/32,1/16,1/8,1/4,1/2. 特征拼接为不同分辨率下的cost volume,进行后续的融合与级联。
在这里插入图片描述
Cost volume融合部分,网络将三个小分辨率的cost volume进行融合(1/32,1/16,1/8,),首先对三个分辨率的cost volume分别进行两组3D conv,然后1/8分辨率的cost volume两次经过stride为2的3Dconv进行下采样,并与1/16,1/32进行融合(代码实现为concat操作)后上采样恢复1/8的分辨率,然后再经过一个完整的hourglass网络,得到通道数为1的cost volume,接下来就是常见的softmax得到权重并对视差值加权求和获取视差图的操作了。这一步得到的1/8分辨率下的初始视差图,也是后续级联部分的起点。
当然,这里可以看到1/8分辨率在一开始的两组3Dconv,以及第一段融合小分辨率cost volume之后,也进行了预测视差图。代码中的具体操作就是将cost volume通过一组3Dconv通道数减到1然后softmax那一套。总之,这部分得到的3个视差图在训练阶段都会上采样到原始分辨率,用于监督。但是指导下一步级联的视差图,是整体网络(两个hourglass)的输出结果。

Cost volume级联部分
级联部分是伴随分辨率提升进行的,简单来说就是1/8的视差图指导1/4的生成,1/4的指导1/2的生成。级联部分所谓的“指导”是基于不确定度规划视差搜索范围实现的。
作者提到了基于cost的立体匹配算法一个经典的先验,即单峰分布。简单来说,如果一个点匹配的非常完美,有明确的匹配点,那么这两个点计算的cost就很小(similarity就很大),经过softmax之后对应正确匹配点的视差值的概率就极大,其他视差值概率非常小,形似一个单峰的概率分布;如果有令网络困惑的一个误匹配点,就会形成双峰的分布(两个视差值概率都比较大);如果是难以匹配甚至是遮挡无法匹配的点,计算得到的概率分布就很平均,因为匹配的不是很好,每个视差值的cost没有显著差异,形成多峰分布。
在这里插入图片描述
基于概率分布的关系,作者认为可以计算得到视差图的不确定度。
对于匹配的比较好的点(比如单峰分布)不确定度很小,表明正确的视差就在这个值附近,下一阶段视差范围可以缩小一些,排除掉无关的区域(当然随着级联的下一阶段分辨率提高,视差精度也随之提高,小分辨率得到的视差值难以作为准确视差值,但不确定度指示了视差游离的范围)。而不确定度大的点,表明其视差真实的取值可能在当前值基础上有一个很大波动,下一阶段的视差范围应该宽松一些。本文定义了一种视差重新规划范围的方法:
在这里插入图片描述
通过不确定度找到下一阶段最大和最小视差值,并将其所包含的范围划分为固定的N份。这里最大最小值是通过当前视差增减不确定的线性项实现的,其参数是可学习的,而即使不确定度为0仍然有一个范围,毕竟分辨率提高需要进一步细化视差估计。
将最大和最小值之间划分为固定范围应该是为了更方便的张量计算。此时视差值更类似于MVS类方法的平面扫描,即根据最大最小视差所确定的深度范围,分割为若各假想平面,计算目标位于哪个平面上,这里的视差值有一点脱离原本像素定义视差值的概念。
显然,确定度高范围小的点此时做的视差估计是亚像素的,而范围大的那些点精度就相对不高。
获取规划好的视差范围后,通过采样的方式得到新范围下的cost volume。
重新采样的cost volume将经过类似上述的回归过程(1组残差3D conv,2组hourglass)得到优化的视差图,然后重复上述过程,实现1/8到1/4再到1/2的两段级联过程。

注意到这一回归过程(1组残差3D conv,2组hourglass)在1/4和1/2的预测过程中使用,这一过程与上述fused类似,在训练阶段也各自输出3张视差图用于监督,因此训练阶段CFNet共有9个输出结果用于loss计算,每一张结果均与ground truth计算smoothL1 loss,并加权求和。测试阶段,CFNet输出三张视差图,分别是1/8,1/4,1/2回归部分的最终输出上采样到原始分辨率的结果。

本文的模型在一些位置采用了Mish激活函数,其训练方式也很有趣,先把激活函数设置为ReLU训练,然后转为Mish继续训练。

CFNet的结果还是很好的,精度表现在各个数据集上都很好,文章也展示了鲁棒性的实验结果。CFNet在Robust Vision Challenge 2020比赛取得了第一的分数,该比赛要求模型在统一的训练集上训练后在包括KITTI, ETH3D,Middleburry等进行测试。
在这里插入图片描述
总体而言,本文介绍的方法结合了级联与融合cost volume方法,在低分辨率的cost进行融合,这些特征更有利于把握数据集分布的gap。而从小到大的分辨率增加过程,则结合了级联的思路,用小分辨率预测的视差图作为大分辨率预测的初始。级联预测的一般方式并不改变视差范围,而是预测残差。本文的方法则结合置信度,将小分辨率预测结果的置信度作为大分辨率视差范围的基础,对置信度较高位置能够更加细化视差值得到亚像素的精度,对于置信度较低区域又保留了大范围的视差区间,允许跳出小分辨率的结果附近区域,避免局部最优。

整体设计上比较巧妙,在鲁棒性方面具有一定的优势。对立体匹配的发展,尤其是真实场景应用具有较好的启发意义。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/131850
推荐阅读
相关标签
  

闽ICP备14008679号