当前位置:   article > 正文

nuScenes 数据集(CVPR 2020)_nuscenes数据集

nuscenes数据集

声明:此翻译仅为个人学习记录

文章信息

  • 标题:nuScenes: A multimodal dataset for autonomous driving (CVPR 2020)
  • 作者:Holger Caesar, Varun Bankiti, Alex H. Lang, Sourabh Vora, Venice Erin Liong, Qiang Xu, Anush Krishnan, Yu Pan, Giancarlo Baldan, Oscar Beijbom
  • 文章链接:https://arxiv.org/pdf/1903.11027.pdf

数据集简介

摘要

  目标的鲁棒检测和跟踪对于自动驾驶汽车技术的部署至关重要。基于图像的基准数据集推动了计算机视觉任务的发展,如环境中的目标检测、跟踪和分割。然而,大多数自动驾驶汽车都搭载了相机和距离传感器,如激光雷达和雷达。随着基于机器学习的检测和跟踪方法变得越来越普遍,需要在包含距离传感器数据和图像的数据集上训练和评估这些方法。在这项工作中,我们展示了nuTonomy场景(nuScenes),这是第一个搭载全自动驾驶汽车传感器套件的数据集:6个相机、5个雷达和1个激光雷达,均具有全360度视野。nuScenes包含1000个场景,每个场景长20秒,并用23个类和8个属性的3D边界框进行了完全注释。它的注释和图像数量是开创性KITTI数据集的7倍。我们定义了新颖的3D检测和跟踪指标。我们还为激光雷达和基于图像的检测和跟踪提供了仔细的数据集分析以及基线。数据、开发工具包和更多信息可在线获取。

1. 引言

  自动驾驶有可能从根本上改变城市景观,挽救许多人的生命[78]。安全导航的一个关键部分是检测和跟踪车辆周围环境中的代理。为了实现这一点,现代自动驾驶汽车部署了几个传感器以及复杂的检测和跟踪算法。这类算法越来越依赖于机器学习,这推动了对基准数据集的需求。尽管有过多的图像数据集用于此目的(表1),但缺乏展示与构建自动驾驶感知系统相关的全套挑战的多模式数据集。我们发布了nuScenes数据集来解决这一缺口。

在这里插入图片描述

图1. nuScenes数据集的示例。我们看到了6种不同的相机视图、激光雷达和雷达数据,以及人类注释的语义图。在底部,我们展示了人类书写的场景描述。

  多模式数据集特别重要,因为没有单一类型的传感器是足够的,而且传感器类型是互补的。相机允许精确测量边缘、颜色和照明,从而实现图像平面上的分类和定位。然而,来自图像的3D定位具有挑战性[13、12、57、80、69、66、73]。另一方面,激光雷达点云包含较少的语义信息,但在3D中的定位非常准确[51]。此外,激光雷达的反射率是一个重要特征[40,51]。然而,激光雷达数据稀少,其范围通常限于50-150m。雷达传感器的范围为200-300米,并通过多普勒效应测量目标速度。然而,返回比激光雷达更稀疏,在定位方面也不那么精确。虽然雷达已经使用了几十年[1,3],但我们还没有发现任何自动驾驶数据集可以提供雷达数据。

  由于三种传感器类型在困难条件下具有不同的故障模式,因此传感器数据的联合处理对于代理检测和跟踪至关重要。文献[46]甚至表明,多模态传感器配置不仅是互补的,而且在面临破坏、故障、不利条件和盲点时提供冗余。虽然有几项工作提出了基于相机和激光雷达的融合方法[48、14、64、52、81、75、29],但PointPillars[51]展示了一种仅使用激光雷达的方法,其性能与现有的基于融合的方法相当。这表明需要更多的工作来以原则性的方式组合多模态测量。

在这里插入图片描述

图2. 从晴朗天气(第1列)、夜间(第2列)、雨水(第3列)和施工区(第4列)收集的前置相机图像。

  为了训练深度学习方法,需要高质量的数据注释。大多数数据集提供2D语义注释作为框或掩码(类或实例)[8,19,33,85,55]。在最初的nuScenes发布时,只有少数数据集使用3D框[32,41,61]注释了目标,并且它们没有提供完整的传感器套件。在nuScenes发布之后,现在有几个集合包含完整的传感器套件(表1)。然而,据我们所知,没有其他3D数据集提供属性注释,例如行人姿势或车辆状态。

  现有的AV数据集和车辆侧重于特定的运营设计领域。需要更多的研究来概括“复杂、杂乱和看不见的环境”[36]。因此,有必要研究检测方法如何推广到不同的国家、照明(白天与夜间)、行驶方向、道路标记、植被、降水和以前看不见的目标类型。

  使用语义图的上下文知识也是场景理解的重要前提[82,2,35]。例如,人们可能会在路上发现汽车,但不会在人行道或建筑物内。除了[45,10]之外,大多数AV数据集不提供语义图。

1.1 贡献

  从多模态3D检测挑战的复杂性和当前AV数据集的局限性来看,一个具有360°覆盖范围的大规模多模态数据集,涵盖了从不同情况收集的所有视觉和距离传感器以及地图信息,将进一步推动AV场景理解研究。nuScenes就是这样做的,这是这部作品的主要贡献。

  nuScenes代表了数据量和复杂性方面的巨大飞跃(表1),是第一个从整个传感器套件提供360°传感器覆盖的数据集。这也是第一个包含雷达数据并使用批准用于公共道路的AV捕获的AV数据集。这是第一个包含夜间和雨天数据的多模式数据集,除目标类别和位置外,还包含目标属性和场景描述。与[84]类似,nuScenes是AVs的整体场景理解基准。它可以研究多种任务,如目标检测、跟踪和各种条件下的行为建模。

  我们的第二个贡献是针对AV应用的新检测和跟踪指标。我们训练3D目标检测器和跟踪器作为基线,包括使用多个激光雷达扫描增强目标检测的新方法。我们还介绍并分析了nuScene目标检测和跟踪挑战的结果。

  第三,我们发布devkit、评估代码、分类法、注释者说明和数据库模式,以实现行业范围的标准化。最近,Lyft L5[45]数据集采用了这种格式,以实现不同数据集之间的兼容性。nuScenes数据是根据CC BY-NC-SA 4.0许可证发布的,这意味着任何人都可以将此数据集用于非商业研究目的。所有数据、代码和信息均可在线获取。

  自发布以来,nuScenes受到了AV社区的强烈兴趣[90、70、50、91、9、5、68、28、49、86、89]。一些工作扩展了我们的数据集,为自然语言对象引用[22]和高级场景理解[74]引入了新的注释。检测挑战使基于激光雷达和基于相机的检测工作得以实现,如[90,70],与最初发布时的最新技术相比[51,69]提高了40%和81%(表4)。nuScenes已用于3D目标检测[83,60]、多智能体预测[9,68]、行人定位[5]、天气增强[37]和移动点云预测[27]。nuScenes仍然是唯一一个提供雷达数据的注释AV数据集,它鼓励研究人员探索用于目标检测的雷达和传感器融合[27,42,72]。

1.2 相关数据集

  在过去的十年中,发布了一些驾驶数据集,这些数据集在AVs的场景理解研究中发挥了巨大作用。大多数数据集都专注于RGB相机图像的2D注释(框、掩码)。CamVid[8]、Cityscapes[19]、Mapillary Vistas[33]、D2-City[11]、BDD100k[85]和Apolloscape[41]发布了不断增长的数据集,其中包含分割掩码。Vistas、D2-City和BDD100k还包含在不同天气和照明设置下拍摄的图像。其他数据集仅关注图像上的行人注释[20,25,79,24,88,23,58]。捕捉和注释RGB图像的便捷性使得发布这些大型图像数据集成为可能。

  另一方面,多模态数据集通常由图像、距离传感器数据(激光雷达、雷达)和GPS/IMU数据组成,由于难以集成、同步和校准多个传感器,因此采集和注释成本高昂。KITTI[32]是一个开创性的多模态数据集,提供了来自激光雷达传感器的密集点云以及正面立体图像和GPS/IMU数据。它在22个场景中提供了200k个3D框,这有助于推进3D目标检测的最新技术。最近的H3D数据集[61]包括160个拥挤场景,总共有1.1M个3D框标注在27k帧上。目标在全360°视图中进行注释,而KITTI仅在正面视图中存在目标时进行注释。KAIST多光谱数据集[17]是一个多模态数据集,由RGB和热像仪、RGB立体、3D激光雷达和GPS/IMU组成。它提供夜间数据,但数据集的大小有限,注释是二维的。其他值得注意的多模态数据集包括[15]提供驾驶行为标签,[43]提供地点分类标签,[6,55]提供无语义标签的原始数据。

  在最初的nuScene发布之后,[76,10,62,34,45]随后发布了他们自己的大型AV数据集(表1)。在这些数据集中,只有Waymo Open Dataset[76]提供了显著更多的注释,这主要是由于较高的注释频率(10Hz vs.2Hz)(在初步分析中,我们发现2Hz的注释对于更精细的时间分辨率(如10Hz或20Hz)的插值是鲁棒的。H3D[61]得出了类似的结论,其中注释从2Hz插值到10Hz)。A*3D采用正交方法,其中从55小时的数据中选择和注释相似数量的帧(39k)。Lyft L5数据集[45]与nuScenes最相似。它是使用nuScenes数据库模式发布的,因此可以使用nuScene devkit进行解析。

在这里插入图片描述

表1. AV数据集比较。表的顶部表示没有距离数据的数据集。中部和下部表示数据集(非出版物),其中距离数据在该数据集首次发布之前和之后发布。我们使用粗体突出显示来指示具有距离数据的数据集中每一列中的最佳条目。只有至少为汽车、行人和自行车提供注释的数据集才包含在该比较中。(†)我们只报告用长方体注释的场景的数字。(‡)当前Waymo Open数据集大小与nuScene相当,但注释频率高出5倍。(††)从每个激光雷达收集的激光雷达点云计数。(**)[41]提供了静态深度图。(-)表示未提供任何信息。SG:新加坡,NY:纽约,SF:旧金山,PT:匹兹堡,AS:ApolloScape。

2. nuScenes数据集

  在这里,我们将介绍如何规划驾驶、设置车辆、选择有趣的场景、注释数据集以及保护第三方的隐私。

驾驶规划。我们在波士顿(海港和南波士顿)和新加坡(One North,Holland Village和Queenstown)开车,这两个城市以交通密集和极具挑战性的驾驶环境而闻名。我们强调在植被、建筑、车辆、道路标记以及左右交通方面,各个地点的多样性。从大量的训练数据中,我们手动选择了84个日志和15小时的驾驶数据(以平均16公里/小时的速度行驶了242公里)。驾驶路线经过仔细选择,以捕捉不同的地点(城市、住宅、自然和工业)、时间(白天和夜晚)和天气条件(太阳、雨和云)。

在这里插入图片描述

表2. nuScenes中的传感器数据。

车辆设置。我们使用两辆具有相同传感器布局的雷诺Zoe超小型电动汽车在波士顿和新加坡行驶。传感器位置见图4,传感器详情见表2。前相机和侧相机的视野为70°,偏移55°。后置相机的视野为110°。

传感器同步。为了在激光雷达和相机之间实现良好的跨模态数据对齐,当顶部激光雷达扫过相机FOV的中心时,触发相机的曝光。图像的时间戳是曝光触发时间;并且激光雷达扫描的时间戳是实现当前激光雷达帧的完全旋转的时间。考虑到相机的曝光时间几乎是瞬时的,这种方法通常会产生良好的数据对齐(相机以12Hz运行,而激光雷达以20Hz运行。12次相机曝光在20次激光雷达扫描中尽可能均匀地分布,因此并非所有激光雷达扫描都具有相应的相机帧)。我们使用下面描述的定位算法来执行运动补偿。

定位。大多数现有数据集基于GPS和IMU提供车辆位置[32,41,19,61]。如KITTI数据集[32,7]所示,此类定位系统容易受到GPS中断的影响。由于我们在密集的城市地区工作,这一问题更加突出。为了准确定位我们的车辆,我们在离线步骤中创建了激光雷达点的详细高清地图。在收集数据时,我们使用了来自激光雷达和里程计信息的蒙特卡洛定位方案[18]。该方法非常稳健,我们实现了≤10cm的定位误差。为了鼓励机器人研究,我们还提供了与[65]类似的原始CAN总线数据(例如速度、加速度、扭矩、转向角、车轮速度)。

地图。我们提供了相关区域的高度精确的人类注释语义图。原始光栅化地图仅包括分辨率为10px/m的道路和人行道。矢量化的地图扩展提供了11个语义类的信息,如图3所示,使其比自原始发布以来发布的其他数据集的语义地图更丰富[10,45]。我们鼓励使用定位和语义图作为所有任务的强优先级。最后,我们提供了基线路线——假设没有障碍物,自动驾驶车辆应该走的理想路径。该路线可能有助于轨迹预测[68],因为它通过减少可行路线的搜索空间简化了问题。

在这里插入图片描述

图3. 具有11个不同颜色语义层的nuScene语义图。为了显示自我车辆的路径,我们用黑色球体绘制scene-0121中的每个关键帧自我姿势。

场景选择。收集原始传感器数据后,我们手动选择1000个有趣的场景,每个场景持续时间为20秒。此类场景包括高交通密度(例如十字路口、建筑工地)、罕见类别(例如救护车、动物)、潜在危险的交通情况(例如乱穿马路的人、不正确的行为)、机动(例如变道、转弯、停车)和可能对AV来说困难的情况。我们还选择了一些场景,以鼓励在空间覆盖、不同场景类型以及不同的天气和照明条件方面的多样性。专家注释员为每个场景写下文字描述或标题(例如:“在十字路口等待、人行道上的行人、自行车穿越、乱穿马路、右转、停着的车、下雨”)。

数据注释。选择场景后,我们以2Hz采样关键帧(图像、激光雷达、雷达)。我们用语义类别、属性(可见性、活动和姿势)和建模为x、y、z、宽度、长度、高度和偏航角的长方体来注释每个关键帧中的23个目标类中的每一个。如果目标被至少一个激光雷达或雷达点覆盖,我们会在每个场景中连续标注目标。使用专家注释器和多个验证步骤,我们实现了高度精确的注释。我们还发布了中间传感器帧,如第4.2节所示,这些帧对于跟踪、预测和目标检测非常重要。相机、雷达和激光雷达的捕获频率分别为12Hz、13Hz和20Hz,这使得我们的数据集独一无二。只有Waymo Open Dataset提供了10Hz的类似高捕获频率。

在这里插入图片描述

图4. 数据采集平台的传感器设置。

在这里插入图片描述

图5. 两个nuScene位置的空间数据覆盖率。颜色表示所有场景中100米半径范围内自我车辆姿势的关键帧数量。

注释统计信息。我们的数据集有23个类别,包括不同的车辆、行人类型、移动设备和其他目标(图8-SM)。我们提供了不同类别的几何结构和频率的统计数据(图9-SM)。每个关键帧平均有7名行人和20辆车辆。此外,从四个不同的场景位置(波士顿:55%,SG OneNorth:21.5%,SG Queenstown:13.5%,SG HollandVillage:10%)拍摄了40k个关键帧,以及不同的天气和照明条件(下雨:19.4%,夜晚:11.6%)。由于nuScene中的细粒度类,数据集显示了严重的类别不平衡,最小和最常见的类注释的比例为1:10k(KITTI中为1:36)。这鼓励社区更深入地探讨这个长尾问题。

  图5显示了所有场景的空间覆盖。我们看到大多数数据来自交叉口。图10-SM显示,在距离自我车辆80米的不同距离处可以看到汽车注释。框的方向也不尽相同,由于停放的汽车和同一车道上的汽车,汽车在垂直和水平角度上的数量最多。每个方框注释内的激光雷达和雷达点统计如图14-SM所示。注释目标包含多达100个激光雷达点,即使在80m的径向距离,在3m处最多包含12k个激光雷达。同时,它们在10米和50米处分别包含多达40个雷达回波。雷达距离远超过激光雷达达到200米。

3. 任务和指标

  nuScenes的多模式特性支持多种任务,包括检测、跟踪、预测和定位。这里我们介绍了检测和跟踪任务和指标。我们将检测任务定义为仅对时间t时目标的[t−0.5,t]秒之间的传感器数据进行操作,而跟踪任务对[0,t]之间的数据进行操作。

3.1 检测

  nuScenes检测任务需要检测10个具有3D边界框、属性(例如坐着与站着)和速度的目标类。这10个类是nuScene中注释的所有23个类的子集(表5-SM)。

平均精度指标。我们使用平均精度(AP)指标[32,26],但通过对地平面上的2D中心距离d取阈值来定义匹配,而不是联合交叉(IOU)。这样做是为了将检测与目标大小和方向分离,但也因为足迹较小的目标,如行人和自行车,如果检测到较小的平移错误,则给出0 IOU(图7)。这使得很难比较仅视觉方法的性能,这些方法往往具有较大的定位误差[69]。

  然后,我们计算AP作为查全率和查准率超过10%的查全率曲线下的归一化面积。删除召回率或准确率低于10%的操作点,以尽量减少低精度和召回区域中常见的噪声影响。如果在该区域中没有获取到操作点,则该类别的AP设置为零。然后,我们对D={0.5,1,2,4}米的匹配阈值和类别集合C进行平均:
在这里插入图片描述
真阳性指标。除了AP之外,我们还为每个与真值框匹配的预测测量一组真阳性指标(TP指标)。所有TP指标在匹配期间使用d=2m中心距离计算,并且它们都被设计为正标量。在所提出的指标中,TP指标均采用原生单位(见下文),这使得结果易于解释和比较。匹配和评分是每个类别独立进行的,每个指标是在每次达到的召回水平超过10%时的累积平均值的平均值。如果某个特定类的召回率未达到10%,则该类的所有TP错误都设置为1。定义了以下TP错误:

  平均平移误差(ATE)是二维欧几里得中心距离(单位为米)。平均比例误差(ASE)是对齐方向和平移(1−IOU)后的三维intersection over union(IOU)。平均方位误差(AOE)是预测值与真值(弧度)之间的最小偏航角差。所有角度均在360°周期内进行测量,但在180°周期内测量的障碍物除外。平均速度误差(AVE)是作为2D(m/s)中速度差的L2范数的绝对速度误差。平均属性误差(AAE)定义为1减去属性分类精度(1−acc)。对于每个TP指标,我们计算所有类别的平均TP指标(mTP):
在这里插入图片描述
  我们省略了未明确定义的类别的测量:圆锥体和障碍物的AVE,因为它们是静止的;圆锥体的AOE,因为它们没有明确的方向;圆锥体和障碍物的AAE,由于这些类上没有定义属性。

nuScenes检测分数。在IOU上设置阈值的mAP可能是最流行的目标检测指标[32,19,21]。然而,该指标不能捕获nuScene检测任务的所有方面,如速度和属性估计。此外,它还结合了位置、大小和方位估计。ApolloScape[41]3D汽车实例挑战通过定义每种错误类型的阈值和召回阈值来解决这些问题。这导致了10×3的阈值,使得这种方法复杂、任意且不直观。我们建议将不同的错误类型合并为标量分数:nuScenes检测分数(NDS)。
在这里插入图片描述
这里,mAP是平均精度(1),TP是五个平均真阳性指标(2)的集合。因此,NDS的一半基于检测性能,而另一半根据框的位置、大小、方向、属性和速度来量化检测的质量。由于mAVE、mAOE和mATE可以大于1,我们在(3)中将每个指标限定在0和1之间。

3.2 跟踪

  在本节中,我们将介绍跟踪任务设置和指标。跟踪任务的重点是跟踪场景中所有检测到的目标。使用第3.1节中定义的所有检测类别,静态类别除外:护栏、结构和交通锥。

AMOTA和AMOTP指标。Weng和Kitani[77]在KITTI上提出了类似的3D MOT基准[32]。他们指出,传统的指标标准没有考虑预测的可信度。因此,他们开发了平均多目标跟踪精度(AMOTA)和平均多目标追踪精度(AMOTP),即在所有召回阈值上平均MOTA和MOTP。通过比较KITTI和nuScene排行榜的检测和跟踪,我们发现nuScene的难度明显更大。由于nuScenes的困难,传统的MOTA指标通常为零。因此,在更新的公式sMOTAr[77](这部作品的预印本称sMOTAr为MOTAR。)中,MOTA增加了一个术语,以调整各自的召回:
在这里插入图片描述
这是为了确保sMOTAr值跨越整个[0,1]范围。我们在召回范围[0.1,1]内执行40点插值(召回值表示为R)。生成的sAMOTA指标是跟踪任务的主要指标:
在这里插入图片描述
传统指标。我们还使用传统的跟踪指标,如MOTA和MOTP[4]、每帧错误警报、主要跟踪轨迹、主要丢失轨迹、假阳性、假阴性、身份切换和轨迹碎片。与[77]类似,我们尝试所有召回阈值,然后使用达到最高sMOTAr的阈值。

TID和LGD指标。此外,我们设计了两个新的指标:跟踪初始化持续时间(TID)和最长间隙持续时间(LGD)。一些跟踪器需要过去传感器读数的固定窗口,或者在没有良好初始化的情况下表现不佳。TID测量从跟踪开始到第一次检测到目标的持续时间。LGD计算跟踪中任何检测间隙的最长持续时间。如果没有跟踪目标,我们将整个跟踪持续时间指定为TID和LGD。对于这两个指标,我们计算所有跟踪的平均值。这些指标与AVs相关,因为许多短期跟踪碎片可能比几秒钟内丢失一个目标更容易接受。

4. 实验

  在本节中,我们介绍了nuScene数据集上的目标检测和跟踪实验,分析了它们的特性,并提出了未来研究的途径。

4.1 基线

  我们提出了一些具有不同检测和跟踪模式的基线。

激光雷达检测基线。为了证明nuScenes上领先算法的性能,我们训练了仅激光雷达的3D目标检测器PointPillars[51]。我们通过累积激光雷达扫描以获得更丰富的点云作为输入,利用nuScene中可用的时间数据。所有类别都由一个单独的网络训练。对网络进行了修改,以学习速度作为每个3D框的附加回归目标。我们将训练数据中每个类的框属性设置为最常见的属性。

图像检测基线。为了检查仅图像的3D目标检测,我们重新实现了正交特征变换(OFT)[69]方法。所有类别都使用单一的OFT网络训练。我们修改了原始的OFT以使用SSD检测头,并确认这与KITTI上发布的结果相匹配。该网络采用非最大抑制(NMS)从所有6个相机中采集一张图像,并从中组合出完整的360°预测。我们将长方体速度设置为零,并将属性设置为训练数据中每个类的最常见属性。

检测挑战结果。我们比较了2019年nuScenes检测挑战的顶级提交结果。在所有提交的材料中,Megvii[90]的表现最好。它是一个基于激光雷达的具有稀疏3D卷积的类平衡多头网络。在仅有图像的提交中,MonoDIS[70]是最好的,显著优于我们的图像基线,甚至一些基于激光雷达的方法。它使用了一种新颖的解纠缠2D和3D检测损失。注意,顶级方法都执行了重要性抽样,这表明了解决类不平衡问题的重要性。

跟踪基线。我们提出了从相机和激光雷达数据进行跟踪的几个基线。从检测挑战中,我们选择了性能最佳的激光雷达方法(Megvii[90])、推断时间报告最快的方法(PointPillars[51])以及性能最佳的相机方法(MonoDIS[70])。使用每种方法的检测结果,我们使用[77]中描述的跟踪方法设置基线。我们为训练、验证和测试划分上的每种方法提供检测和跟踪结果,以促进更系统的研究。有关2019年nuScenes跟踪挑战的结果,请参阅补充材料。

4.2 分析

  在这里,我们分析了第4.1节中介绍的方法的属性,以及数据集和匹配函数。

大型基准数据集的情况就是如此。nuScenes的贡献之一是数据集大小,特别是与KITTI相比的增长(表1)。在这里,我们研究了更大数据集大小的好处。我们使用不同数量的训练数据训练PointPillars[51]、OFT[69]和额外的图像基线SSD+3D。SSD+3D具有与MonoDIS相同的3D参数化[70],但使用单级设计[53]。对于这项消融研究,我们使用少6倍的时间段和单周期优化器计划[71]来训练PointPillar,以减少训练时间。我们的主要发现是,方法排序随数据量的变化而变化(图6)。特别是,PointPillars在与KITTI相当的数据量上的表现类似于SSD+3D,但随着使用更多数据,PointPillar显然更强。这表明,复杂算法的全部潜力只能通过更大、更多样的训练集来验证。[56,59]得出了类似的结论,[59]表明KITTI排行榜反映的是数据挖掘方法,而不是实际算法。

匹配函数的重要性。当使用我们提出的2m中心距离匹配与KITTI中使用的IOU匹配时,我们比较了已发布方法的性能(表4)。正如预期的那样,当使用IOU匹配时,行人和自行车等小目标无法达到0 AP以上,因此无法排序(图7)。相比之下,中距离匹配宣布MonoDIS明显获胜。这种影响对于汽车类别来说较小,但在这种情况下,很难解决MonoDIS和OFT之间的差异。

在这里插入图片描述

图6. nuScene验证集上的训练数据量与平均精度(mAP)。黑色虚线对应于KITTI[32]中的训练数据量。

在这里插入图片描述

图7. 平均精度与匹配函数。CD:中心距离。IOU:联合上的交集。我们对汽车使用IOU=0.7,对行人和自行车使用IOU=0.05,遵循KITTI[32]。我们在第3.1节中使用CD=2m作为TP指标。

  匹配功能还改变了激光雷达和基于图像的方法之间的平衡。事实上,当使用中心距离匹配时,排序发生了变化,以支持MonoDIS,而不是自行车类的两种基于激光雷达的方法(图7)。这是有道理的,因为自行车的薄结构使得它们很难在激光雷达中检测到。我们得出的结论是,中心距离匹配更适合对基于图像的方法和基于激光雷达的方法进行排序。

多次激光雷达扫描可提高性能。根据我们的评估协议(第3.1节),只允许使用0.5秒的先前数据来做出检测决定。这对应于之前的10次激光雷达扫描,因为激光雷达以20Hz采样。我们设计了一种将多个点云合并到PointPillars基线中的简单方法,并研究了性能影响。通过将所有点云移动到关键帧的坐标系,并将标量时间戳附加到每个点,以指示距关键帧的时间增量(以秒为单位),来实现累积。编码器包括时间增量作为激光雷达点的额外装饰。除了更丰富的点云的优势之外,这还提供了时间信息,这有助于网络定位并实现速度预测。我们使用1、5和10个激光雷达扫描进行实验。结果表明,随着激光雷达扫描次数的增加,但回报率的降低,检测和速度估计都有所改善(表3)。

在这里插入图片描述

表3. 验证集上的PointPillars[51]检测性能。我们可以看到,更多的激光雷达扫描会显著提高性能,并且ImageNet的预训练与KITTI不相上下。

哪个传感器最重要?AVs的一个重要问题是需要哪些传感器来实现最佳检测性能。这里我们比较了领先的激光雷达和图像检测器的性能。我们专注于这些模式,因为文献中没有只有竞争性雷达的方法,我们与PointPillars对雷达数据的初步研究没有取得令人满意的结果。我们比较了PointPillars,这是一种快速、轻便的激光雷达检测器和MonoDIS,一种顶级图像检测器(表4)。这两种方法实现了相似的mAP(30.5%对30.4%),但PointPillars具有更高的NDS(45.3%对38.4%)。接近的mAP本身是值得注意的,并说明了最近在单目视觉3D估计方面的优势。然而,如上所述,使用基于IOU的匹配功能,差异会更大。

  表7-SM中列出了特定类别的性能。最常见的两个类别中,PointPillar更为强劲:汽车(68.4%对47.8%的AP)和行人(59.7%对37.0%的AP)。另一方面,MonoDIS在小型类别自行车(24.5%对1.1%的AP)和圆锥体(48.7%对30.8%的AP)中表现更为强劲。这是意料之中的,因为1)自行车是很薄的目标,通常很少有激光雷达返回;2)交通锥很容易在图像中检测到,但在激光雷达点云中很小,很容易被忽略。3) MonoDIS在训练期间采用了重要抽样方法,以提高稀有类别。在检测性能相似的情况下,为什么MonoDIS的NDS更低?主要原因是平均平移误差(52cm vs. 74cm)和速度误差(1.55m/s vs. 0.32m/s),两者均如预期。MonoDIS也有较大的尺度误差,平均IOU为74% vs. 71%,但差异很小,这表明仅图像方法从外观推断尺寸的能力很强。

预训练的重要性。使用激光雷达基线,我们检查了在nuScenes上训练检测器时预训练的重要性。无预训练意味着使用[38]中的均匀分布随机初始化权重。ImageNet[21]预训练[47]使用最初训练的主干来准确分类图像。KITTI[32]预训练使用在激光雷达点云上训练的主干来预测3D框。有趣的是,尽管KITTI预训练的网络收敛更快,但网络的最终性能在不同预训练之间仅略有不同(表3)。一种解释可能是,虽然KITTI在域上接近,但其大小不够大。

在这里插入图片描述

表4. nuScene测试集上的目标检测结果。PointPillars、OFT和SSD+3D是本文提供的基线,其他方法是向nuScenes检测挑战排行榜提交的最重要的方法。(†)仅使用单目相机图像作为输入。所有其他方法都使用激光雷达。PP:PointPillars[51],MDIS:MonoDIS[70]。

更好的检测提供更好的跟踪。Weng和Kitani[77]提出了一个简单的基线,使用KITTI上的强大检测实现了最先进的三维跟踪结果。在这里,我们使用第4.1节中给出的图像和激光雷达基线,分析更好的检测是否也意味着更好的nuScene跟踪性能。Megvii、PointPillars和MonoDIS的sAMOTA分别为17.9%、3.5%和4.5%,AMOTP分别为1.50m、1.69m和1.79m。与表4中的mAP和NDS检测结果相比,排名相似。虽然性能与大多数指标相关,但我们注意到MonoDIS具有最短的LGD和最多的跟踪碎片数。这可能表明,尽管性能较低,但基于图像的方法不太可能在长时间内丢失目标。

5. 结论

  在本文中,我们介绍了nuScene数据集、检测和跟踪任务、指标、基线和结果。这是从获准在公共道路上测试的AV收集的第一个数据集,包含完整的360°传感器套件(激光雷达、图像和雷达)。nuScenes拥有所有先前发布的数据集中最大的3D框注释集合。为了促进对AVs的3D目标检测的研究,我们引入了一种新的检测指标,该指标平衡了检测性能的各个方面。我们在nuScenes上演示了领先的激光雷达和图像目标检测器和跟踪器的新适应。未来的工作将添加图像级和点级语义标签以及轨迹预测的基准[63]。

Acknowledgements. The nuScenes dataset was annotated by Scale.ai and we thank Alexandr Wang and Dave Morse for their support. We thank Sun Li, Serene Chen and Karen Ngo at nuTonomy for data inspection and quality control, Bassam Helou and Thomas Roddick for OFT baseline results, Sergi Widjaja and Kiwoo Shin for the tutorials, and Deshraj Yadav and Rishabh Jain from EvalAI [30] for setting up the nuScenes challenges.

References

[1] Giancarlo Alessandretti, Alberto Broggi, and Pietro Cerri. Vehicle and guard rail detection using radar and vision data fusion. IEEE Transactions on Intelligent Transportation Systems, 2007. 1
[2] Dan Barnes, Will Maddern, and Ingmar Posner. Exploiting 3d semantic scene priors for online traffic light interpretation. In IVS, 2015. 2
[3] Klaus Bengler, Klaus Dietmayer, Berthold Farber, Markus Maurer, Christoph Stiller, and Hermann Winner. Three decades of driver assistance systems: Review and future perspectives. ITSM, 2014. 1
[4] Keni Bernardin, Alexander Elbs, and Rainer Stiefelhagen. Multiple object tracking performance metrics and evaluation in a smart room environment. In ECCV Workshop on Visual Surveillance, 2006. 6
[5] Lorenzo Bertoni, Sven Kreiss, and Alexandre Alahi. Monoloco: Monocular 3d pedestrian localization and uncertainty estimation. In ICCV, 2019. 2
[6] Jos´e-Luis Blanco-Claraco, Francisco- ´Angel Moreno-Dueas, and Javier Gonz´alez-Jim´enez. The M´alaga urban dataset: High-rate stereo and lidar in a realistic urban scenario. IJRR, 2014. 3
[7] Martin Brossard, Axel Barrau, and Silvere Bonnabel. AI-IMU Dead-Reckoning. arXiv preprint arXiv:1904.06064, 2019. 4
[8] Gabriel J. Brostow, Jamie Shotton, Julien Fauqueur, and Roberto Cipolla. Segmentation and recognition using structure from motion point clouds. In ECCV, 2008. 2, 3
[9] Sergio Casas, Cole Gulino, Renjie Liao, and Raquel Urtasun. Spatially-aware graph neural networks for relational behavior forecasting from sensor data. arXiv preprint arXiv:1910.08233, 2019. 2
[10] Ming-Fang Chang, John W Lambert, Patsorn Sangkloy, Jagjeet Singh, Slawomir Bak, Andrew Hartnett, De Wang, Peter Carr, Simon Lucey, Deva Ramanan, and James Hays. Argoverse: 3d tracking and forecasting with rich maps. In CVPR, 2019. 2, 3, 4
[11] Z. Che, G. Li, T. Li, B. Jiang, X. Shi, X. Zhang, Y. Lu, G.Wu, Y. Liu, and J. Ye. D2-City: A large-scale dashcam video dataset of diverse traffic scenarios. arXiv:1904.01975, 2019. 3
[12] Xiaozhi Chen, Kaustav Kundu, Yukun Zhu, Andrew G Berneshawi, Huimin Ma, Sanja Fidler, and Raquel Urtasun. 3d object proposals for accurate object class detection. In NIPS, 2015. 1
[13] Xiaozhi Chen, Laustav Kundu, Ziyu Zhang, Huimin Ma, Sanja Fidler, and Raquel Urtasun. Monocular 3d object detection for autonomous driving. In CVPR, 2016. 1
[14] Xiaozhi Chen, Huimin Ma, Ji Wan, Bo Li, and Tian Xia. Multi-view 3d object detection network for autonomous driving. In CVPR, 2017. 2
[15] Yiping Chen, Jingkang Wang, Jonathan Li, Cewu Lu, Zhipeng Luo, Han Xue, and Cheng Wang. Lidar-video driving dataset: Learning driving policies effectively. In CVPR, 2018. 3
[16] Hsu-kuang Chiu, Antonio Prioletti, Jie Li, and Jeannette Bohg. Probabilistic 3d multi-object tracking for autonomous driving. arXiv preprint arXiv:2001.05673, 2020. 16
[17] Yukyung Choi, Namil Kim, Soonmin Hwang, Kibaek Park, Jae Shin Yoon, Kyounghwan An, and In So Kweon. KAIST multi-spectral day/night data set for autonomous and assisted driving. IEEE Transactions on Intelligent Transportation Systems, 2017. 3
[18] Z. J. Chong, B. Qin, T. Bandyopadhyay, M. H. Ang, E. Frazzoli, and D. Rus. Synthetic 2d lidar for precise vehicle localization in 3d urban environment. In ICRA, 2013. 4
[19] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele. The Cityscapes dataset for semantic urban scene understanding. In CVPR, 2016. 2, 3, 4, 6, 12
[20] Navneet Dalal and Bill Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005. 3
[21] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. ImageNet: A large-scale hierarchical image database. In CVPR, 2009. 6, 8
[22] Thierry Deruyttere, Simon Vandenhende, Dusan Grujicic, Luc Van Gool, and Marie-Francine Moens. Talk2car: Taking control of your self-driving car. arXiv preprint arXiv:1909.10838, 2019. 2
[23] Piotr Doll´ar, Christian Wojek, Bernt Schiele, and Pietro Perona. Pedestrian detection: An evaluation of the state of the art. PAMI, 2012. 3
[24] Markus Enzweiler and Dariu M. Gavrila. Monocular pedestrian detection: Survey and experiments. PAMI, 2009. 3
[25] Andreas Ess, Bastian Leibe, Konrad Schindler, and Luc Van Gool. A mobile vision system for robust multi-person tracking. In CVPR, 2008. 3
[26] Mark Everingham, Luc Van Gool, Christopher K. I. Williams, John Winn, and Andrew Zisserman. The pascal visual object classes (VOC) challenge. International Journal of Computer Vision, 2010. 5
[27] Hehe Fan and Yi Yang. PointRNN: Point recurrent neural network for moving point cloud processing. arXiv preprint arXiv:1910.08287, 2019. 2
[28] Di Feng, Christian Haase-Schuetz, Lars Rosenbaum, Heinz Hertlein, Fabian Duffhauss, Claudius Glaeser, Werner Wiesbeck, and Klaus Dietmayer. Deep multi-modal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges. arXiv preprint arXiv:1902.07830, 2019. 2
[29] D. Feng, C. Haase-Schuetz, L. Rosenbaum, H. Hertlein, C. Glaeser, F. Timm, W. Wiesbeck, and K. Dietmayer. Deep multi-modal object detection and semantic segmentation for autonomous driving: Datasets, methods, and challenges. arXiv:1902.07830, 2019. 2
[30] EvalAI: Towards Better Evaluation Systems for AI Agents. D. yadav and r. jain and h. agrawal and p. chattopadhyay and t. singh and a. jain and s. b. singh and s. lee and d. batra. arXiv:1902.03570, 2019. 9
[31] Andrea Frome, German Cheung, Ahmad Abdulkader, Marco Zennaro, Bo Wu, Alessandro Bissacco, Hartwig Adam, Hartmut Neven, and Luc Vincent. Large-scale privacy protection in google street view. In ICCV, 2009. 12
[32] Andreas Geiger, Philip Lenz, and Raquel Urtasun. Are we ready for autonomous driving? the KITTI vision benchmark suite. In CVPR, 2012. 2, 3, 4, 5, 6, 7, 8, 12
[33] Neuhold Gerhard, Tobias Ollmann, Samuel Rota Bulo, and Peter Kontschieder. The Mapillary Vistas dataset for semantic understanding of street scenes. In ICCV, 2017. 2, 3
[34] Jakob Geyer, Yohannes Kassahun, Mentar Mahmudi, Xavier Ricou, Rupesh Durgesh, Andrew S. Chung, Lorenz Hauswald, Viet Hoang Pham, Maximilian Mhlegg, Sebastian Dorn, Tiffany Fernandez, Martin Jnicke, Sudesh Mirashi, Chiragkumar Savani, Martin Sturm, Oleksandr Vorobiov, and Peter Schuberth. A2D2: AEV autonomous driving dataset. http://www.a2d2.audi, 2019. 3
[35] Hugo Grimmett, Mathias Buerki, Lina Paz, Pedro Pinies, Paul Furgale, Ingmar Posner, and Paul Newman. Integrating metric and semantic maps for vision-only automated parking. In ICRA, 2015. 2
[36] Junyao Guo, Unmesh Kurup, and Mohak Shah. Is it safe to drive? an overview of factors, challenges, and datasets for driveability assessment in autonomous driving. arXiv:1811.11277, 2018. 2
[37] Shirsendu Sukanta Halder, Jean-Francois Lalonde, and Raoul de Charette. Physics-based rendering for improving robustness to rain. In ICCV, 2019. 2
[38] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Delving deep into rectifiers: Surpassing human-level performance on imagenet classification. In ICCV, 2015. 8
[39] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, 2016. 12, 15
[40] Namdar Homayounfar, Wei-Chiu Ma, Shrinidhi Kowshika Lakshmikanth, and Raquel Urtasun. Hierarchical recurrent attention networks for structured online maps. In CVPR, 2018. 1
[41] Xinyu Huang, Peng Wang, Xinjing Cheng, Dingfu Zhou, Qichuan Geng, and Ruigang Yang. The apolloscape open dataset for autonomous driving and its application. arXiv:1803.06184, 2018. 2, 3, 4, 6, 12
[42] Vijay John and Seiichi Mita. Rvnet: Deep sensor fusion of monocular camera and radar for image-based obstacle detection in challenging environments, 2019. 2
[43] Hojung Jung, Yuki Oto, Oscar M. Mozos, Yumi Iwashita, and Ryo Kurazume. Multi-modal panoramic 3d outdoor datasets for place categorization. In IROS, 2016. 3
[44] Rudolph Emil Kalman. A new approach to linear filtering and prediction problems. Transactions of the ASME–Journal of Basic Engineering, 82(Series D):35–45, 1960. 16
[45] R. Kesten, M. Usman, J. Houston, T. Pandya, K. Nadhamuni, A. Ferreira, M. Yuan, B. Low, A. Jain, P. Ondruska, S. Omari, S. Shah, A. Kulkarni, A. Kazakova, C. Tao, L. Platinsky, W. Jiang, and V. Shet. Lyft Level 5 AV Dataset 2019. https://level5.lyft.com/dataset/, 2019. 2, 3, 4
[46] Jaekyum Kim, Jaehyung Choi, Yechol Kim, Junho Koh, Chung Choo Chung, and Jun Won Choi. Robust camera lidar sensor fusion via deep gated information fusion network. In IVS, 2018. 1
[47] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In NIPS, 2012. 8
[48] Jason Ku, Melissa Mozifian, Jungwook Lee, Ali Harakeh, and Steven Waslander. Joint 3d proposal generation and object detection from view aggregation. In IROS, 2018. 2
[49] Charles-´Eric No¨el Laflamme, Franc¸ois Pomerleau, and Philippe Gigu`ere. Driving datasets literature review. arXiv preprint arXiv:1910.11968, 2019. 2
[50] Nitheesh Lakshminarayana. Large scale multimodal data capture, evaluation and maintenance framework for autonomous driving datasets. In ICCVW, 2019. 2
[51] Alex H. Lang, Sourabh Vora, Holger Caesar, Lubing Zhou, Jiong Yang, and Oscar Beijbom. Pointpillars: Fast encoders for object detection from point clouds. In CVPR, 2019. 1, 2, 6, 7, 8, 14, 15, 16
[52] Ming Liang, Bin Yang, Shenlong Wang, and Raquel Urtasun. Deep continuous fusion for multi-sensor 3d object detection. In ECCV, 2018. 2
[53] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C Berg. SSD: Single shot multibox detector. In ECCV, 2016. 7
[54] Yuexin Ma, Xinge Zhu, Sibo Zhang, Ruigang Yang, Wenping Wang, and Dinesh Manocha. Trafficpredict: Trajectory prediction for heterogeneous traffic-agents http: //apolloscape.auto/tracking.html. In AAAI, 2019. 3
[55] Will Maddern, Geoffrey Pascoe, Chris Linegar, and Paul Newman. 1 year, 1000 km: The oxford robotcar dataset. IJRR, 2017. 2, 3
[56] Gregory P Meyer, Ankit Laddha, Eric Kee, Carlos Vallespi Gonzalez, and Carl K Wellington. Lasernet: An efficient probabilistic 3d object detector for autonomous driving. In CVPR, 2019. 7
[57] Arsalan Mousavian, Dragomir Anguelov, John Flynn, and Jana Kosecka. 3d bounding box estimation using deep learning and geometry. In CVPR, 2017. 1
[58] Luk Neumann, Michelle Karg, Shanshan Zhang, Christian Scharfenberger, Eric Piegert, Sarah Mistr, Olga Prokofyeva, Robert Thiel, Andrea Vedaldi, Andrew Zisserman, and Bernt Schiele. Nightowls: A pedestrians at night dataset. In ACCV, 2018. 3
[59] Jiquan Ngiam, Benjamin Caine, Wei Han, Brandon Yang, Yuning Chai, Pei Sun, Yin Zhou, Xi Yi, Ouais Alsharif, Patrick Nguyen, Zhifeng Chen, Jonathon Shlens, and Vijay Vasudevan. Starnet: Targeted computation for object detection in point clouds. arXiv preprint arXiv:1908.11069, 2019. 7
[60] Farzan Erlik Nowruzi, Prince Kapoor, Dhanvin Kolhatkar, Fahed Al Hassanat, Robert Laganiere, and Julien Rebut. How much real data do we actually need: Analyzing object detection performance using synthetic and real data. In ICML Workshop on AI for Autonomous Driving, 2019. 2
[61] Abhishek Patil, Srikanth Malla, Haiming Gang, and Yi-Ting Chen. The H3D dataset for full-surround 3d multi-object detection and tracking in crowded urban scenes. In ICRA, 2019. 2, 3, 4, 12
[62] Quang-Hieu Pham, Pierre Sevestre, Ramanpreet Singh Pahwa, Huijing Zhan, Chun Ho Pang, Yuda Chen, Armin Mustafa, Vijay Chandrasekhar, and Jie Lin. A*3D Dataset: Towards autonomous driving in challenging environments. arXiv:1909.07541, 2019. 3
[63] Tung Phan-Minh, Elena Corina Grigore, Freddy A. Boulton, Oscar Beijbom, and Eric M. Wolff. Covernet: Multimodal behavior prediction using trajectory sets. In CVPR, 2020. 8
[64] Charles R Qi, Wei Liu, Chenxia Wu, Hao Su, and Leonidas J. Guibas. Frustum pointnets for 3d object detection from RGB-D data. In CVPR, 2018. 2
[65] Vasili Ramanishka, Yi-Ting Chen, Teruhisa Misu, and Kate Saenko. Toward driving scene understanding: A dataset for learning driver behavior and causal reasoning. In CVPR, 2018. 4
[66] Akshay Rangesh and Mohan M. Trivedi. Ground plane polling for 6dof pose estimation of objects on the road. In arXiv:1811.06666, 2018. 1
[67] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. 12
[68] Nicholas Rhinehart, Rowan McAllister, Kris M. Kitani, and Sergey Levine. PRECOG: Predictions conditioned on goals in visual multi-agent scenarios. In ICCV, 2019. 2, 4
[69] Thomas Roddick, Alex Kendall, and Roberto Cipolla. Orthographic feature transform for monocular 3d object detection. In BMVC, 2019. 1, 2, 5, 6, 7, 8, 14, 15
[70] Andrea Simonelli, Samuel Rota Bulo, Lorenzo Porzi, Manuel Lopez-Antequera, and Peter Kontschieder. Disentangling monocular 3d object detection. ICCV, 2019. 2, 7, 8, 15, 16
[71] Leslie N. Smith. A disciplined approach to neural network hyper-parameters: Part 1 – learning rate, batch size, momentum, and weight decay. arXiv preprint arXiv:1803.09820, 2018. 7
[72] Sourabh Vora, Alex H Lang, Bassam Helou, and Oscar Beijbom. Pointpainting: Sequential fusion for 3d object detection. In CVPR, 2020. 2
[73] Yan Wang, Wei-Lun Chao, Divyansh Garg, Bharath Hariharan, Mark Campbell, and Kilian Q. Weinberger. Pseudo-lidar from visual depth estimation: Bridging the gap in 3d object detection for autonomous driving. In CVPR, 2019. 1
[74] Ziyan Wang, Buyu Liu, Samuel Schulter, and Manmohan Chandraker. Dataset for high-level 3d scene understanding of complex road scenes in the top-view. In CVPRW, 2019. 2
[75] Zining Wang, Wei Zhan, and Masayoshi Tomizuka. Fusing bird’s eye view lidar point cloud and front view camera image for 3d object detection. In IVS, 2018. 2
[76] Waymo. Waymo Open Dataset: An autonomous driving dataset, 2019. 3
[77] Xinshuo Weng and Kris Kitani. A baseline for 3d multiobject tracking. arXiv preprint arXiv:1907.03961, 2019. 6, 7, 8, 16
[78] L. Woensel and G. Archer. Ten technologies which could change our lives. European Parlimentary Research Service, 2015. 1
[79] Christian Wojek, Stefan Walk, and Bernt Schiele. Multi-cue onboard pedestrian detection. In CVPR, 2009. 3
[80] Bin Xu and Zhenzhong Chen. Multi-level fusion based 3d object detection from monocular images. In CVPR, 2018. 1
[81] Danfei Xu, Dragomir Anguelov, and Ashesh Jain. Pointfusion: Deep sensor fusion for 3d bounding box estimation. In CVPR, 2018. 2
[82] Bin Yang, Ming Liang, and Raquel Urtasun. HDNET: Exploiting HD maps for 3d object detection. In CoRL, 2018. 2
[83] Yangyang Ye, Chi Zhang, Xiaoli Hao, Houjin Chen, and Zhaoxiang Zhang. SARPNET: Shape attention regional proposal network for lidar-based 3d object detection. Neuro-computing, 2019. 2
[84] Senthil Yogamani, Ciar´an Hughes, Jonathan Horgan, Ganesh Sistu, Padraig Varley, Derek O’Dea, Michal Uric´ar, Stefan Milz, Martin Simon, Karl Amende, et al. Woodscape: A multi-task, multi-camera fisheye dataset for autonomous driving. In ICCV, 2019. 2
[85] Fisher Yu, Wenqi Xian, Yingying Chen, Fangchen Liu, Mike Liao, Vashisht Madhavan, and Trevor Darrell. BDD100K: A diverse driving video database with scalable annotation tooling. arXiv:1805.04687, 2018. 2, 3
[86] Ekim Yurtsever, Jacob Lambert, Alexander Carballo, and Kazuya Takeda. A survey of autonomous driving: Common practices and emerging technologies. arXiv preprint arXiv:1906.05113, 2019. 2
[87] Kaipeng Zhang, Zhanpeng Zhang, Zhifeng Li, and Yu Qiao. Joint face detection and alignment using multitask cascaded convolutional networks. SPL, 23(10), 2016. 12
[88] Shanshan Zhang, Rodrigo Benenson, and Bernt Schiele. Citypersons: A diverse dataset for pedestrian detection. In CVPR, 2017. 3
[89] Hao Zhou and Jorge Laval. Longitudinal motion planning for autonomous vehicles and its impact on congestion: A survey. arXiv preprint arXiv:1910.06070, 2019. 2
[90] Benjin Zhu, Zhengkai Jiang, Xiangxin Zhou, Zeming Li, and Gang Yu. Class-balanced grouping and sampling for point cloud 3d object detection. arXiv:1908.09492, 2019. 2, 7, 8, 16
[91] Jing Zhu and Yi Fang. Learning object-specific distance from a monocular image. In ICCV, 2019. 2

A. nuScenes数据集

  在本节中,我们将提供有关nuScenes数据集、传感器校准、隐私保护方法、数据格式、类映射和注释统计的更多详细信息。

传感器校准。为了获得高质量的多传感器数据集,需要仔细校准传感器内部和外部参数。在6个月的数据收集期间,这些校准参数每周更新两次。在这里,我们描述了如何为数据采集平台执行传感器校准,以实现高质量的多模态数据集。具体来说,我们仔细校准每个传感器的外部和内部。我们表示每个传感器相对于自我框架的外部坐标,即后车轴的中点。最相关的步骤如下:

  • 激光雷达外部参数:我们使用激光衬垫精确测量激光雷达与自我框架的相对位置。

  • 相机外部参数:我们在相机和激光雷达传感器前面放置一个立方体形状的校准目标。校准目标由具有已知图案的三个正交平面组成。在检测到图案之后,我们通过对准校准目标的平面来计算从相机到激光雷达的变换矩阵。给定上面计算的激光雷达到自我框架的变换,我们计算相机到自我框架的变换。

  • 雷达外部参数:我们将雷达安装在水平位置。然后,我们通过在公共道路上行驶来收集雷达测量值。在对移动目标的雷达回波进行滤波后,我们使用蛮力方法校准偏航角,以最小化静态目标的补偿距离率。

  • 相机内参校准:我们使用具有一组已知图案的校准目标板来推断相机的固有和失真参数。

隐私保护。保护第三方的隐私是我们的首要任务。由于手动标记人脸和车牌对于1.4M图像来说非常昂贵,我们使用了最先进的目标检测技术。特别是对于号码牌检测,我们使用在Cityscapes[19](https://github.com/bourdakos1/Custom-Object-Detection)上训练的带ResNet-101骨干[39]的Faster R-CNN[67]。对于人脸检测,我们使用[87](https://github.com/TropComplique/mtcnn-pytorch)。我们设置分类阈值以实现极高的召回率(类似于[31])。为了提高精度,我们删除了与图像中已知行人和车辆框的重投影不重叠的预测。最后,我们使用预测框来模糊图像中的人脸和车牌。

在这里插入图片描述

表5. 从nuScene中的常规类映射到检测和跟踪挑战中使用的类。注意,为了简洁起见,我们省略了一般nuScene类的大多数前缀。

数据格式。与大多数现有数据集[32,61,41]相反,我们将注释和元数据(例如,定位、时间戳、校准数据)存储在关系数据库中,这避免了冗余并允许高效访问。nuScenesdevkit、分类法和注释说明可在线获得(https://github.com/nutonomy/nuscenes-devkit)。

类映射。nuScenes数据集附带了23个类的注释。由于其中一些只有少量注释,我们合并了类似的类并删除了注释少于10000的类。这为我们的检测任务生成了10个类。其中,我们省略了3个类,这些类对于跟踪任务来说大多是静态的。表5-SM显示了一般nuScene数据集中的检测类和跟踪类及其对应类。

注释统计信息。我们提供了关于nuScene注释的更多统计信息。绝对速度如图11-SM所示。移动汽车、行人和自行车类别的平均速度分别为6.6、1.3和4 m/s。注意,我们的数据是从城市地区收集的,显示了这三类的合理速度范围。

在这里插入图片描述

图8. 顶部:每个类别的注释数。底部:所选类别的属性分布。汽车和成人是我们数据集中最常见的类别,而救护车是最不常见的类别。属性图还显示了一些预期模式:工程车辆很少移动,行人很少坐着,而公交车通常在移动。

在这里插入图片描述

图9. 左:汽车的边界框大小分布。右图:汽车、行人和自行车的每个关键帧中的类别计数。

  我们通过图12-SM所示的极距离密度图分析了汽车、行人和自行车类别的自我车辆周围的框注释分布。这里,发生箱是对数刻度的。通常,注释围绕自我车辆分布良好。当注释更接近自我车辆时,注释也更密集。然而,行人和自行车在100米范围内的标注较少。还可以看出,汽车类别在自我车辆的前部和后部更为密集,因为大多数车辆都与自我车辆沿同一车道行驶。

  在第2节中,我们通过hexbin密度图讨论了所有类别的框内激光雷达点的数量,但这里我们给出了每个类别的激光雷达点数量,如图13-SM所示。类似地,发生箱是对数刻度的。可以看出,与行人和自行车相比,在离自我车辆不同距离的汽车的框注释中发现了更多的激光雷达点。这是意料之中的,因为汽车的表面积比其他两类更大,反射面积也更大,因此更多的激光雷达点被反射回传感器。

在这里插入图片描述

图10. 顶部:目标与自我车辆的径向距离。底部:框坐标系中框的方向。

在这里插入图片描述

图11. 绝对速度。我们只观察速度大于0.5m/s的运动目标。

场景重建。nuScenes使用基于激光雷达的精确定位算法(第2节)。然而,很难量化定位质量,因为我们没有真值定位数据,通常无法在场景中执行环路闭合。为了定性地分析我们的定位,我们通过在全局坐标中注册大约800个点云来计算整个场景的合并点云。我们删除了与自我车辆相对应的点,并将该点重新投影到的最近相机像素的平均颜色值分配给每个点。场景重建的结果如图15所示,该图显示了精确的同步和定位。

在这里插入图片描述

图12. 框注释的极对数刻度密度图,其中径向轴是距自我车辆的距离(单位:米),极轴是相对于自我车辆的偏航角。箱越暗,该区域中的框批注越多。在这里,我们只显示了所有地图的150m径向距离的密度,但car的注释最多可达200m。

在这里插入图片描述

图13. Hexbin对数刻度密度图,显示了按类别(汽车、行人和自行车)分层的框注释中激光雷达点的数量。

在这里插入图片描述

图14. Hexbin对数刻度密度图,显示了在框注释内对激光雷达和雷达点的数量。黑线表示与自我车辆相距给定距离的平均点数。

在这里插入图片描述

图15. 给定激光雷达点和相机图像的场景重建示例。我们在图像平面中投影激光雷达点,并根据相机数据中的像素颜色分配颜色。

B. 实施细节

  在这里,我们提供了关于训练激光雷达和基于图像的3D目标检测基线的更多细节。

PointPillars实现细节。对于所有实验,我们的PointPillars[51]网络使用0.25米的柱xy分辨率和[-50,50]米的x和y范围进行训练。柱的最大数量和批量大小随激光雷达扫描次数而变化。对于1次、5次和10次扫描,我们将最大柱数分别设置为10000、22000和30000,批处理大小设置为64、64和48。所有实验都进行了750次训练。初始学习率设置为10−3,在600时降低了10倍,在700时再次降低。仅使用累积点云中具有一个或多个激光雷达点的真值注释作为正面训练示例。由于自行车架内的自行车没有单独标注,评估指标忽略了自行车架,因此在训练期间,自行车架内所有的激光雷达点都被过滤掉。

OFT实施细节。对于每台相机,正交特征变换[69](OFT)基线在每台相机帧中的体素网格上进行训练,横向范围为[-40,40]米,纵向范围为[0.1,50.1]米,垂直范围为(−3,1)米。我们只训练了距离汽车自我框架坐标系原点50米以内的注释。使用nuScenes数据集中的“可见性”属性,我们还过滤掉了可见性低于40%的注释。使用2×10−3的学习率对网络进行了60个时期的训练,并对网络权重进行了随机初始化(无ImageNet预训练)。

在这里插入图片描述

表6. 目标检测性能在nuScenes验证集的子集上评估下降。与评估整个验证集相比,性能报告为mAP的相对下降。我们评估了三种目标检测方法在新加坡数据、降雨数据和夜间数据上的性能。注意,由于使用了ResNet34[39]骨干网和不同的训练协议,MDIS结果不能与本工作的其他部分直接比较。(†)仅使用单目相机图像作为输入。PP仅使用激光雷达。

C. 实验

  在本节中,我们将对nuScene进行更详细的结果分析。我们研究了雨夜数据、每类性能和语义图过滤的性能。我们还分析了跟踪挑战的结果。

雨夜数据表现。如第2节所述,nuScenes包含来自2个国家的数据,以及降雨和夜间数据。关于这些标准,数据集划分(训练、验证、测试)遵循相同的数据分布。在表6中,我们分析了验证集的相关子集上三个目标检测基线的性能。我们可以看到,与整体验证集(美国和新加坡)相比,新加坡的性能略有下降,尤其是基于视觉的方法。这可能是由于不同国家的不同目标外观以及不同的标签分布。对于雨水数据,我们发现平均性能仅略有下降,OFT和PP的性能较差,MDIS的性能稍好。一个原因是,nuScenes数据集将挡风玻璃上有雨滴的任何场景注释为下雨,而不管是否有持续降雨。最后,夜间数据显示,基于激光雷达的方法的性能相对下降36%,基于视觉的方法的相对下降55%和58%。这可能表明基于视觉的方法更受较差照明的影响。我们还注意到,夜景中的目标非常少,而且很难对可见性较差的目标进行注释。对于注释数据,如第2节所述,必须使用相机和激光雷达数据。

每类分析。PointPillars[51]的每级性能如表7-SM(顶部)和图17-SM所示。该网络在汽车和行人这两个最常见的类别上总体表现最好。表现最差的类别是自行车和工程车辆,这两个最罕见的类别也带来了额外的挑战。工程车辆因其尺寸和形状的高度变化而面临独特的挑战。虽然汽车和行人的平移误差相似,但行人(21°)的定向误差高于汽车(11°)。由于相对于行人而言,汽车的正面和侧面轮廓之间的区别更大,因此预计汽车的方向误差较小。考虑到城市中车辆的典型速度为10至15 m/s,车辆速度估计值很有希望(例如,汽车类别的AVE为0.24 m/s)。

在这里插入图片描述

表7. 测试集上PointPillars[51](顶部)和MonoDIS[70](底部)的详细检测性能。AP:距离阈值上的平均精度(%),ATE:平均平移误差(m),ASE:平均刻度误差(1-IOU),AOE:平均方位误差(rad),AVE:平均速度误差(m/s),AAE:平均属性误差(1−acc),N/A:不适用(第3.1节)。nuScenes检测分数(NDS)=45.3%(PointPillars)和38.4%(MonoDIS)。

语义图过滤。在第4.2节和表7-SM中,我们表明PointPillars基线在自行车类别上仅达到1%的AP。然而,当过滤预测和地面真相以仅包括先前语义图(此处定义为道路和人行道的结合。)上的框时,AP增加到30%。这一观察结果可以在图16-SM中看到,在图中,我们绘制了与先前语义图相距不同距离的AP。如图所示,当匹配的GT距离先前的语义图更远时,AP下降。同样,这很可能是因为远离语义地图的自行车往往被停放和遮挡,能见度较低。

在这里插入图片描述

表8. nuScenes测试集的跟踪结果。PointPillars、MonoDIS(MaAB)和Megvii(MeAB)是来自检测挑战的提交,每个都使用AB3DMOT[77]跟踪基线。StanfordIPRL TRI(Stan)、VVte(VV团队)、CenterTrack Open(CeOp)和CenterTrack Vision(CeVi)是nuScenes跟踪挑战排行榜的顶级提交。(†)仅使用单目相机图像作为输入。CeOp使用激光雷达和相机。所有其他方法都只使用激光雷达。

在这里插入图片描述

图16. PointPillars[51]检测性能与语义先验图定位在验证。对于最佳的激光雷达网络(使用ImageNet预训练的10次激光雷达扫描),只有在语义先验图的给定距离内,才包括预测和真值注释。

跟踪挑战结果。在表8中,我们展示了2019年nuScene跟踪挑战的结果。Stan[16]使用Mahalanobis距离进行匹配,显著优于最强基线(+40%sAMOTA),并在nuScenes跟踪基准上建立了新的最先进水平。正如预期的那样,这两种仅使用单目相机图像的方法表现不佳(CeVi和MDIS)。与第4节类似,我们观察到这些指标高度相关,除了MDIS LGD和CeOp AMOTP的显著例外。注意,所有方法都使用检测再跟踪方法。除了CeOp和CeVi,所有方法都使用卡尔曼滤波器[44]。

在这里插入图片描述

图17. nuScenes测试集上PointPillars的每类结果取自检测排行榜。

D. Lidarseg 概述

在第一个 nuScenes 发布版本中,边界框或长方体被用来表示3D对象。虽然长方体在许多情况下很有用,但它缺乏捕捉铰接对象的精细形状细节的能力。nuScenes lidarseg 是激光雷达语义分割的代表,它具有更高的粒度级别,通过在 nuScenes 数据集的 40000 个关键帧中包含每个激光雷达点的注释(带有一个语义标签),这是一个惊人的 140000000 个激光雷达点,用32个标签对其中每个点进行注释。除了nuScenes 的 23 个前景类(things),我们还包括9个背景类(stuff)。有关每个类和示例图像的详细定义,请参阅 nuScenes 和 nuScenes lidarseg 的注释器说明。

nuScenes lidarseg 的分类法与 nuScenes 和 nuImages 的其他分类法兼容,因此能够跨多种传感器模式进行广泛的研究。这是工业界和学术界向前迈出的重要一步,因为它使研究人员能够研究和量化新问题,如激光雷达点云分割、前景提取、传感器校准和使用点级语义映射。未来,我们计划围绕这些任务组织各种公开挑战。

nuScenes-lidarseg 是站在巨人的肩膀上。学术 SemanticKITTI 数据集为著名的KITTI 数据集添加了 28 个类的激光雷达分割标签。KITTI 主要由郊区街道组成,交通密度低,交通状况不太具挑战性。其注释仅覆盖前摄像头,而不是整个 360 度视图。此外,它不含雷达,严格用于非商业用途。nuScenes 致力于改善这些方面,从新加坡和波士顿的城市和郊区场景中收集了大量数据。它是一个多模式数据集,覆盖整个 360 度视图,可供商业实体使用。在 2019 年 10 月首次宣布 nuScenes lidarseg 之后,我们看到了许多其他激光雷达分割数据集的出现,例如 Hesai 的 Pandaset,我们期待着更多的公司与社区共享他们的数据。

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/198892
推荐阅读
相关标签
  

闽ICP备14008679号