赞
踩
标题:Delving into Localization Errors for Monocular 3D Object Detection
作者:Xinzhu Ma1, Yinmin Zhang3, Dan Xu2, Dongzhan Zhou1,Shuai Yi3, Haojie Li4, Wanli Ouyang1
机构:1The University of Sydney, 2The Hong Kong University of Science and Technology,3SenseTime Research, 4Dalian University of Technology
来源:CVPR 2021
编译:万应才
审核: Yiru
转载:泡泡机器人SLAM
摘要
大家好,今天为大家带来的文章是 BARF : Bundle-Adjusting Neural Radiance Fields
从单目图像中估计三维BBOX是自主驾驶的一个重要组成部分,而从这类数据中准确地检测三维目标是一个非常具有挑战性的问题。本文通过深入的诊断实验,量化了每个子任务所带来的影响,发现定位误差是制约单目三维检测的重要因素。此外,我们还探讨了本地化错误背后的深层原因,分析了它们可能带来的问题,并提出了三种策略。首先,我们回顾了二维BBOX的中心和三维物体的投影中心之间的不对齐,这是导致低定位精度的一个重要因素。其次,我们观察到用现有的技术精确定位远处的目标几乎是不可能的,而这些样本会误导学习的网络。为此,我们建议将这些样本从训练集中移除,以改善侦测器的整体效能。最后,我们还提出了一种新的面向3D IoU的物体尺寸估计方法,该方法不受定位误差的影响。我们在KITTI数据集上进行了大量的实验,实验结果表明,该方法实现了实时检测,比以往的方法有很大的提高。
Code:https://github.com/xinzhuma/monodle
图1 KITTI验证集的范围评估。公制为中等设置下汽车类的 AP40。采样间隔为10 m。例如,水平轴20处的相应值代表体
所有样品在15 m和25 m之间的性能。
主要工作与贡献
观察1:图1中最显著的特征是使用地面真值定位时性能的飞跃,达到了与最先进的基于激光雷达的方法类似的水平,表明定位误差是限制单目3D检测的关键因素。此外,除了深度估计外,检测三维物体的投影中心对恢复物体的三维位置也起着重要的作用。为此,我们将重新讨论二维边界框的中心与三维对象的投影中心之间的不对齐。此外,我们还证实了在单目三维探测器中保留二维探测相关分支的必要性。这样,2D检测被用作相关辅助任务,以帮助学习与3D检测共享的特征,这不同于文献[24]中放弃2D检测的现有工作。
观察2:图1中反映的一个明显趋势是,探测精度随着距离的增加而显著降低(非常近距离物体的低性能将在补充材料中讨论)。更重要的是,所有的模型都不能输出超过一定距离的真正样本。我们发现,由于不可避免的定位误差,用现有技术几乎不可能精确地检测到远处的物体(详见第4.4节)。在这种情况下,将这些样本添加到训练集中是否有益成为一个问题。事实上,“坏”样本和“易检测”样本之间存在明显的域差距,强迫网络从这些样本中学习将降低其对其他样本的代表能力,从而影响整体性能。基于以上观察,我们提出了两种方案。第一种方案从训练集中去除距离样本,第二种方案减少这些样本的训练损失权重。
观察3:我们发现,除了定位误差外,还有其他一些重要因素,如尺寸估计、限制单目三维检测(即使我们使用地面真值定位,仍有27.4%的改进空间)。该范围内的现有方法倾向于独立地优化三维边界框的各个组件,并且[36,37]中的研究证实了该策略的有效性。然而,未能考虑每个损失项目对最终指标(即3D IoU)的贡献可能导致次优优化。为了解决这个问题,我们提出了一种面向IoU的三维尺寸估计方法。新的面向IoU的loss算法根据其对3D IoU的贡献率,在样本水平上动态调整每一方的loss权重。
主要贡献:
首先,我们对单目3D检测进行了深入的诊断实验。除了发现“定位误差”是限制单目3D检测的主要问题外,我们还量化了每个子任务的总体影响。其次,我们调查了本地化错误背后的深层原因,分析了它可能带来的问题。因此,我们提出了三种新的策略:注释操作、训练样本操作和优化损失操作,以缓解定位误差带来的问题,从而提高检测率。
算法流程
1.基本原理
图2. 在特征地图尺度(左)中显示二维边界框的符号,在三维世界空间中显示三维边界框的符号(中),以及在鸟瞰视图中显示对象的方向(右)。
2.误差分析
受二维检测领域的CenterNet[44]和CornerNet[21]的启发,我们在KITTI验证集上对不同的预测项目进行了误差分析,用地面真值替换每个预测,并对性能进行了评估。具体地说,我们根据[21,44]的实践,用它的基本真值替换每个输出头。如表1所示,如果用基线模型预测的投影三维中心cw代替其地面真值,则精度从11.12%提高到18.97%。另一方面,深度可以将精度提高到38.01%。
如果我们同时考虑深度和投影中心,即用地面真值结果代替预测的三维位置[x,y,z]3D,则观察到最明显的改善。因此,单目三维检测精度低的主要原因是定位误差。另一方面,根据方程1,深度估计和中心定位共同确定物体在三维世界空间中的位置。与单目图像的不适定深度估计相比,提高中心检测的精度是一种更为可行的方法
表1. Error analysis。左:我们将3D检测相关分支的输出替换为地面真值。右图:我们用预测结果替换基本真值。在KITTI-val集合的中等设置下,用于3D检测的度量是AP40。'项目'。“中心”表示投影在图像平面上的三维中心cw。
表2 图像平面(像素)中心偏移引起的定位误差(米)。
表2显示了不准确的中心检测导致的定位误差。此外,KITTI数据集中[h,w,l]3D的汽车平均形状为[1.53m,1.63m,3.53m]。假设所有其他数量都是正确的,并且定位误差与长度l对齐(导致最大公差),IoU可以通过以下公式计算:
3.本文提出的方法
我们的中心检测设计。对于粗中心c的估计,我们的设计很简单。特别地,我们1)使用投影的3D中心cw作为估计粗中心c的分支的基本真值;2)强制我们的模型同时从2D检测中学习特征。这个简单的设计来自我们下面的分析。
图2 显示图像平面中二维边界框中心(蓝色)和投影三维中心(红色)之间的不对齐。
分析1:如图4所示,2D边界框中心ci和3D边界框的投影中心cw之间存在不对齐。根据式1的公式,投影的3D中心cw应是恢复3D物体中心[x,y,z]3D的关键,这里的关键问题是对粗中心c的监督。在这里我们选择投影的三维中心cw作为粗中心c的地面真值,这有助于粗中心估计的分支了解三维几何,更关系到三维物体中心估计的任务,这是粗中心估计的关键本地化问题。
分析2:3D-center-cw作为粗中心c的标签,然而,它们丢弃了2D检测相关的分支,而我们保留了它们。在我们的设计中,由投影的3D中心cw监督的粗中心c也用于估计2D边界盒中心ci。在我们的设计中,我们强制一个2D检测分支来估计真实2D中心和粗略2D中心之间的偏移oi=ci−c。这使得我们的模型知道物体的几何信息。另外,利用另一个分支来估计二维边界盒的大小,使得共享特征可以通过透视投影来学习一些有利于深度估计的线索。这样,2D检测作为辅助任务,有助于学习更好的3D感知特征。
4..IoU Oriented Optimization
提出了一种面向IoU的三维尺寸估计优化方法。具体来说,假设除了3D尺寸s=[h,w,l]3D之外的所有预测项目都是完全正确的,那么我们可以得到(推导的细节可以在补充资料中找到):
实验结果
表3 KITTI测试集上汽车类别的性能。方法按中等设置排序(与KITTI排行榜相同)。我们用粗体突出显示最佳结果,用下划线突出显示第二名。
表4 KITTI验证集上汽车类别的性能。方法按中等设置排序(与KITTI排行榜相同)。我们用粗体突出显示最佳结果,用下划线突出显示第二名。
点击阅读原文, 即可获取本文下载链接。
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。