赞
踩
近年来,单目深度估计已经被用于计算机视觉和机器人领域,如替代昂贵的激光雷达传感器广泛用于先进的机器人系统,包括自动驾驶车辆或增强其他计算机视觉任务。然而,通常需要一个具有高多样性的大规模数据集来训练神经网络,并且以准确的地面真实深度信息收集足够的数据来进行监督是昂贵和费力的,特别是在户外环境中。减轻这种负担的一种有希望的方法是使用基于同步立体图像或单目视频的自监督学习技术,这样就不需要从其他传感器(比如激光雷达)收集的任何监督。
尽管随着卷积神经网络(CNNs)的发展,单眼图像估计深度的质量得到了显著提高,但CNNs在建模许多计算机视觉任务的长期空间依赖方面受到了限制。许多技术已经被提出,通过编码更大的上下文来克服这一限制,例如,通过扩张的或可变形的卷积来显式建模,使用自注意机制,或聚合多尺度特征。然而,由于卷积运算的局部性,仍存在一个基本的限制。
传统基于CNN的单目深度估计存在的缺陷:固定的感受野不能感知全局信息。
最初设计为自然语言处理任务来捕获序列中的长期依赖关系,被用于各种计算机视觉任务。然而,变压器可能在像素级任务中缺乏局部细节,而精细细节对做出一个好的预测[2很重要。简单的使用Transformer替代传统CNN 进行深度估计是不可行的:
Transformer-baseline表示简单的使用Transformer替换了CNN进行测试,结果显示预测的细节方面很有限,如极点等薄结构和物体的边界。
另外作者还关注到另一个不合格的可优化性问题,即“Transformer-baseline”模型由于典型的多尺度光度损失导致训练过程困难。
于是就有了本论文的创新之处:
1)使用Transformer替换卷积关注global 上下文信息。
2)设计了一个(PWSA)Pixel-Wise Skip Attention即像素级别的跳跃注意力机制,用来关注local信息。
3) 自蒸馏损失来代替传统的多尺度光度损失。
在训练深度网络时,在进行最高分辨率的预测时仍然由单尺度光度损失监督。然而,在其他分辨率进行预测时的损失使用我们的自蒸馏损失(利用最高的分辨率预测结果作为一个伪标签来监督其他中间的预测尺度,这可以提高中间表示和训练的稳定性)。为了最小化错误伪标签产生的误差传播,我们设计了一个多尺度自蒸馏损失的自适应加权方案。
网络采用Swin Transformer作为backbone encoder。
输入图像进行四个Transformer 的encoder阶段分别生成不同分辨率的预测特征图F0-F3(Encoder阶段),此时经历的Transformer的encoder的attention阶段特征图已经有了global信息,需要在细化local信息,所以设计了PWSA模块作为decoder模块。
由于缺乏局部细节,采用Transformer对于密集深度估计任务是不够的,目标是使解码器特征图包含丰富的全局和局部上下文,我们提出了像素级别的跳跃注意(PWSA),一个简单而有效的注意模块,并将其作为解码器模块来增强局部细节。
PWSA包含两个分支过程:长跳过连接和像素级attention;
长跳跃连接是元素级别的特征映射求和得到Sadd;
对encoder的特征图进行元素级别的attention再通过一层残差块、卷积和softmax得到Satt;
再通过Sadd和Satt进行细节增强得到Sscaled;
为了减轻在中报告的训练早期阶段被过度强调或忽视的重新调整的特征,我们应用另一个残差块;
最后进行卷积和上采样对本阶段的decoder特征图预测完成。
PSWA的每次decoder后生成inverse depth mapD0-D3;
利用D0作业伪监督信号,对D1-D3进行loss监督。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。