最新SOTA！基于4D成像雷达和相机融合的3D目标检测新基线

作者：weixin_40725706 | 2024-05-18 13:01:36

踩

论文名称：LXL: LiDAR Excluded Lean 3D Object Detection with 4D Imaging Radar and Camera Fusion

大家好，今天很荣幸受邀分享我们的新工作，作为新兴技术和相对便宜的设备，4D成像雷达已经被证实能在自动驾驶中有效地执行3D目标检测。然而，4D雷达点云的稀疏性和含有的噪声阻碍了性能的进一步提高，且缺乏与其他模态融合的深入研究。另一方面，大多数基于相机的感知方法通过Lift-Splat-Shoot（LSS）中提出的 “基于深度的溅射法（splatting）” 将提取的图像透视图特征几何地转换为鸟瞰图，且一些研究人员利用其他模态（如激光雷达或普通车载雷达）对这一方法进行增强。最近，一些工作将 “采样法（sampling）” 策略应用于图像视图变换，并表明即使没有图像深度估计，它也优于 “溅射法” 。然而，“采样法” 的潜力并没有完全释放出来。在本文中，我们研究了基于相机和4D成像雷达融合的3D目标检测的 “采样法” 视图变换策略。在本文提出的模型LXL中，图像深度分布图和雷达3D占用网格被预测来帮助图像视图变换，称为 “雷达占用辅助的、基于深度的采样法” 。在VoD和TJ4DRadSet数据集上的实验表明，所提出的方法在没有华丽点缀的情况下显著优于现有的3D目标检测方法。消融研究表明，我们的方法在不同的增强设置中表现最好。

引言

感知在自动驾驶中发挥着关键作用，因为轨迹预测、运动规划和控制等后续程序在很大程度上依赖于对环境的准确感知。该领域的关键任务包括分割、目标检测和跟踪，其中3D目标检测是研究最广泛的领域。
在自动驾驶中执行3D目标检测的方法根据所使用的传感器的类型而变化。激光雷达、相机和雷达是常用的传感器，他们的测量数据有不同的结构和特性。激光雷达数据为点云的形式，提供关于物体形状、大小和位置的精确3D几何信息。同时，相机图像提供了密集而规则的数据，包含了丰富的语义信息。然而，激光雷达的高成本阻碍了其在家用车中的广泛应用，而摄像头容易受到具有挑战性的照明和天气条件的影响。
相比之下，雷达成本低、受外部影响较小，这使得它们对于当前先进驾驶辅助系统（ADAS）和自动驾驶中的鲁棒检测至关重要。此外，雷达在协同感知领域的未来应用前景广阔。然而，传统的车载雷达在单独使用时缺乏高度信息，并且生成的点云较稀疏，这对3D目标检测提出了挑战。4D成像雷达的出现导致了更高分辨率3D点云的产生。尽管与激光雷达点云相比，其密度和质量仍然较低，但几项研究已经探索了基于4D雷达的3D目标检测并证明了其可行性。
在3D目标检测中，研究人员越来越多地转向多模态融合技术，以克服单一模态数据的局限性，从而提高整体性能。一种流行的方法涉及从不同的传感器模态中独立提取鸟瞰图（BEV）特征，并将其集成到统一的特征图中。BEV表达的使用提供了许多优点。首先，与基于点或基于体素的方法相比，它能够实现更高效的处理。此外，利用成熟的2D检测技术可以促进学习过程。此外，遮挡是距离视图等其他表达中的常见挑战，但在BEV中得到了缓解。值得注意的是，使用BEV表达简化并增强了多模态融合策略的有效性。
尽管在3D目标检测中使用BEV表达进行多模态融合有好处，但将图像从透视图（PV）变换到BEV是复杂的。当前的方法可分为基于几何的方法和基于网络的方法。基于几何的方法依赖于校准矩阵的显式利用，提供了比基于网络的方法更直接的学习过程。一种广泛使用的基于几何的方法是 “基于深度的溅射法” 。该方法最初在Lift-Splat-Shoot（LSS）中引入，通过预测的像素深度分布将图像像素提升到3D空间中。一些增强被提出以提高其性能。例如，BEVDepth从激光雷达点生成 “真实” 深度图，以监督图像深度预测，而CRN使用2D雷达占用图来辅助视图变换。另一种被称为 “采样法” 的方法，即使没有明确的深度预测，也表现出了优越的性能，如Simple-BEV所述。然而，与 “溅射法” 的常见做法不同，很少有研究探索将 “采样法” 与预测深度相结合。此外，“采样法” 与其他模态结合的潜力在很大程度上仍未得到发掘，这表明在这一领域仍有进一步改进的空间。
尽管人们对3D目标检测的多模态融合技术越来越感兴趣，但4D成像雷达和相机的融合在现有文献中受到的关注有限。为基于激光雷达的融合设计的现有方法，如流行的 “溅射法” ，适用于4D成像雷达和相机融合，但由于雷达点云的独特特性，其增强（如BEV-Depth）可能会失效。具体而言，当存在4D雷达而非激光雷达的点云时，BEV-Depth中生成的深度图可能会受到雷达点云的稀疏性和不精确性的影响。此外，专门为雷达设计的方法，如CRN中提出的技术，可能会引入计算复杂性，并阻碍模型的实时推理能力。因此，显然需要通过开发适合4D成像雷达和相机融合的新方法来解决这一研究空白。
在这项研究中，我们旨在利用4D成像雷达的独特优势来增强现有的 “采样法” 。通过进行广泛的消融研究，我们展示了4D成像雷达如何帮助图像视图变换，并展示了其对整体3D目标检测性能的影响。这项工作的贡献有三方面：

1.我们提出的方法LXL旨在执行基于4D成像雷达和相机融合的3D目标检测。这是该领域的早期尝试，也可作为后续研究的最新基准。
2.在我们的视图变换模块中，提出了一种 “雷达占用辅助的、基于深度的采样法” 特征提升策略。它利用双线性采样来获得预定义体素的图像特征，然后进行两个并行操作：一个将图像3D特征与预测图像深度分布图中的信息相结合，另一个利用估计的雷达3D占用网格。该设计通过引入预测深度分布图和雷达3D占用网格作为辅助，增强了未被充分开发的 “采样法” 策略，从而获得更精确的特征提升结果。
3.实验表明，在View-of-Delft（VoD）和TJ4DRadSet数据集上，LXL的性能分别优于最先进的模型6.7%和2.5%，证明了LXL的有效性。此外，通过消融研究，我们对不同的特征提升和雷达辅助策略进行了比较，表明了所提出的视图变换模块的优越性。

方法

A.概论
模型的总体架构如图1所示。该模型包括四个主要组件：雷达分支、图像分支、融合模块和检测头。每个组件在3D目标检测过程中都起着至关重要的作用；更多细节将在下面几节中说明。
在这里插入图片描述

B.雷达分支

在雷达分支中，输入雷达点云首先按照类似于PointPillars中使用的体素化过程，被体素化为柱体。随后，柱体表达被送到雷达主干和颈部网络中，以提取相关特征。本文按照SECOND网络构建雷达主干和颈部：雷达主干从体素化柱中提取多尺度BEV特征，捕获雷达模态固有的空间和上下文信息；然后，雷达颈部将这些多尺度特征聚合成统一的单一尺度表达，便于后续的融合和分析。获得雷达BEV特征图在我们的模型中有两个主要目的：一是将它们送到融合模块，将它们与图像BEV特征融合，以进行有效的目标检测；二是利用雷达BEV特征图预测雷达3D占用网格。这些组成部分背后的具体细节和动机将在第III-D节中进一步讨论。
为了生成雷达3D占用网格，我们引入了占用网络。记雷达BEV特征图为，其中和表示特征图的维度，对应于通道的数量。3D占用网格的高度（记为）是预定义的。占用网络可用下式表示：
在这里插入图片描述

其中是预测的3D占用网格，表示输入通道为，输出通道为的卷积。
为了将图像特征图从PV变换为BEV，我们利用雷达3D占用网格作为辅助。这一变换的具体细节和过程将在第III-D节中阐述。
C.图像分支
图像分支由4个关键模块组成：图像主干、颈部、深度网络和视图变换模块。
图像主干提取多尺度图像PV特征。图像颈部将不同尺度特征混合来进一步增强特征。在我们的模型中，我们使用与YOLOX相同的架构来实现此设计，即使用CSPNet和PAN作为图像主干和颈部。
深度网络为每个尺度图像PV特征图使用卷积层实现。与现有方法类似，我们将深度空间离散为多个区间（bin），并将深度估计任务视为深度区间分类任务。因此，深度网络输出每个像素的深度概率分布。给定第个尺度的图像PV特征图，表示为，深度分布图可按下式获得：
在这里插入图片描述

其中为预定义的深度区间数，表示图像特征的尺度数，沿深度维度进行。
图像分支的最后一个模块是视图变换模块。其主要目标是将图像PV特征提升到3D空间并压缩高度维度。该模块的详细工作将在第III-D节中详细阐述。
D.视图变换
视图变换的过程包括多尺度深度分布图和雷达3D占用网格的利用，如图2所示。这在本文中被称为 “雷达占用辅助的、基于深度的采样法” 。
在这里插入图片描述

特征提升：将图像特征几何地提升到3D空间主要有两种策略。第一种是 “采样法” ，将预定义的3D体素网格投影到图像平面上，并将投影区域附近像素的特征组合起来形成体素特征。利用这一策略的代表性模型包括M2BEV、Simple-BEV、OFT-Net。第二种策略， “溅射法” ，基于校准矩阵，将每个图像像素沿着3D空间中的直线转换为点或视锥体素（frustum voxels）。这些点或视锥体素的特征由它们对应的像素特征确定。随后，对点进行体素化，或者将视锥体素转换为立方体体素。采用 “溅射法” 进行视图变换的模型包括CaDDN、BEVDet、LSS。
Simple-BEV已经证明， “采样法” 优于 “溅射法” ，我们在第III-D节中的实验也证实了这一结论。因此，我们在模型中选择了 “采样法” 策略进行视图变换。具体而言，给定预定义3D体素的3维坐标，在雷达坐标系中表示为，雷达到图像坐标变换矩阵，以及相机内参矩阵，我们首先使用以下公式将体素中心投影到图像平面上：
在这里插入图片描述

其中为扩维坐标，且
为扩维坐标变换矩阵。是图像坐标系下的投影坐标，其中和分别表示像素索引和图像深度。
随后，可以通过对每个尺度的图像PV特征图进行双线性采样来获得预定义体素的特征。具体来说，我们选择最接近的像素，并计算其特征的加权和（按距离加权），然后将其分配给相应的体素作为其特征。该步骤使用 “” 操作完成，产生图像3D体素特征。
基于深度的采样法：上述操作没有考虑预测的图像深度，这可能导致次优的特征提升。虽然LSS利用外积实现 “基于深度的溅射法” ，但这种方法不能直接应用于我们的 “采样法” 中，因为预测的深度分布图和图像3D特征所处的坐标系不同。为了解决这个问题，我们使用三线性采样（即双线性采样的3D版本），作用在图像坐标系下预测的多尺度图像深度分布图上，以获得雷达坐标系中预定义体素的采样深度概率。随后，将图像的3D体素特征乘以采样的深度概率：
这里表示含广播（broadcast）的按元素乘法，且表示 “基于深度的采样法” 的输出结果。
雷达占用辅助的采样法：由于图像的深度信息往往不明确，模型在没有直接监督的情况下学习准确的深度预测较为困难。
为了解决这个问题，一种可能的方法是使用雷达点 “生成” 深度监督。这种方法将雷达点投影到图像上，并将其深度指定为最近像素的真实深度。然而，由于雷达点云的稀疏性，只有少数像素具有真实深度信息，并且由于雷达测量中固有的噪声，真实深度的准确性会受到限制。
另一种方法以不同的方式利用雷达模态：通过添加额外分支，提升图像PV特征并与上述提升特征融合。这类方法的最新工作CRN将2D雷达点投影到图像平面上，并在柱体化后应用卷积运算。由此产生的卷积输出，称为雷达占用图，位于图像坐标系中，有助于视图变换过程。然而，坐标变换和柱体化过程是耗时的。此外，当将CRN与我们的 “采样法” 相结合时，雷达占用图必须被重新采样到雷达坐标系，这进一步增加了复杂性。因此，我们提出的方法直接在雷达坐标系中生成雷达占用网格，如第III-B节所述。
值得注意的是，在我们的模型中，预测的是雷达3D占用网格，而不是雷达2D占用图，因为4D雷达能够捕捉高度信息。此外，由于所需的占用网格和雷达BEV特征共享相同的BEV分辨率，为了简单起见，它们直接从雷达BEV特征图生成。
我们将雷达3D占用网格乘以，使用下式获取雷达辅助的图像3D特征：
高度压缩：生成的雷达辅助图像3D特征和深度辅助图像3D特征，沿通道维度拼接并沿尺度维度求和。随后，张量从变形（reshape）为，并用卷积促进空间相互作用。这个过程在数学上可以表示为

其中表示最终的图像BEV特征，也是我们 “雷达占用辅助的、基于深度的采样法” 进行视图变换的输出。
E.多模态融合与检测头
在获取雷达和图像的BEV特征后，融合模块会整合它们的信息，生成融合的BEV特征图。在我们的方法中，雷达BEV特征和图像BEV特征具有相同的分辨率，可以进行拼接并通过卷积运算融合。所得到的融合BEV特征随后被送到检测头预测3D边界框。在这项工作中，我们采用CenterPoint的方法来生成分类热图并执行目标检测。需要注意的是，我们的融合策略和检测头并不局限于特定的方法。例如，我们的模型还可以结合基于注意力的融合技术，并使用基于锚框（anchor-based）的检测头。

实验与分析

A. 数据集与评价指标
数据集：在本研究中，我们使用两个数据集，View-of-Delft（VoD）和TJ4DRadSet来评估我们提出的模型的性能。这些数据集是为自动驾驶设计的，包括来自各种传感器的数据，如激光雷达点、4D雷达点和相机图像。数据集中的每个物体都用其相应的类别、3D边界框和跟踪ID进行标注。此外，数据集还提供了不同传感器之间的坐标变换矩阵。
对于VoD数据集，我们在实验中考虑三个类别的物体：汽车、行人和自行车。TJ4DRadSet则包括一个额外的类别：卡车。它还提供了比VoD更多样的驾驶场景。值得注意的是，在整个数据集中存在各种照明条件以及不同的道路类型（如十字路口和高架道路）。因此，当使用TJ4DRadSet数据集时，3D目标检测任务变得更具挑战性。
对于这两个数据集，我们采用了提供的官方数据分割。由于VoD数据集的官方测试服务器尚未发布，因此仅对验证集进行评估和分析。
评价指标：我们使用各数据集的官方指标评估模型。
对于VoD数据集，有两种官方评估方法：整个注释区域的AP（EAA AP）和可驾驶区域的AP（RoI AP）。可驾驶区域被视为感兴趣区域（RoI），位于自车附近，并被定义为相机坐标系下的区域。对于汽车、行人和自行车，计算AP时使用的交并比（IoU）阈值分别为0.5、0.25和0.25。
对于TJ4DRadSet数据集，评估指标包括70米范围内不同类别的3D AP和BEV AP。汽车、行人和自行车的IoU阈值与VoD数据集中使用的值相同。此外，对于卡车类别，IoU阈值设置为0.5。

B. 实施细节
模型实施基于MMDetection3D，这是一个为3D目标检测任务设计的开源框架。
超参数设置：超参数根据VoD数据集的官方指南确定。点云范围（PCR）设置为雷达坐标系中的特定范围，。雷达点体素化过程中的柱体尺寸被定义为。由主干和颈部组成的雷达特征提取器的步长为2，以实现的最终BEV分辨率。
对于检测头，我们使用CenterPoint框架。在训练期间，用于生成真实热图的最小高斯半径被设置为2。在推断期间，考虑前1000个置信度的检测，并应用非最大抑制（NMS）后处理。对于汽车、行人和自行车，NMS的距离阈值分别设置为4米、0.3米和0.85米。
对于TJ4RadSet数据集，PCR设置为，其他超参数与VoD数据集中保持一致。
训练细节：在训练过程中，图像和雷达点在输入模型之前，都会用整个训练集中相应数据的平均值和标准差进行归一化。还会过滤掉图像视图之外的雷达点和真实边界框。输入数据和BEV特征图的增广使用随机水平翻转。使用AdamW优化器和StepLR调度器对该模型进行了80个周期的训练。批量大小设置为6，且初始学习率设置为1e-3。需要注意的是，图像主干和颈部是从预先训练的模型加载的，并且它们的参数被冻结以防止过拟合。
C. 结果与分析
VoD上的结果：VoD验证集的实验结果如表I所示。我们首先将我们的单模态基本方案LXL-R（没有图像分支、占用网络和融合模块）与其他模型进行了比较。LXL-R的汽车和自行车的RoI AP相对较高，这表明4D雷达在近距离环境感知上是有效的。然而行人的RoI AP受到限制，主要有两个原因：首先，行人在BEV表达中较小，通常只占据一个网格甚至其一部分，这使得网络很难准确回归边界框。此外，毫米波在非金属物体上的反射较弱，导致来自行人的测量稀疏且不太准确。另一个观察结果是，雷达单一模态模型在所有类别的EAA AP方面表现不佳，这表明雷达点的稀疏性和噪声导致检测远处物体是很困难的。
在这里插入图片描述

在将相机图像与雷达数据融合后，不同模型的检测结果得到了改善，特别是在EAA上。与RCFusion（4D成像雷达和相机融合的3D目标检测的最新基准）相比，我们的LXL在几乎所有类别和评估区域都实现了更高的检测精度。值得注意的是，行人和自行车的EAA AP、以及行人的RoI AP的性能提升最为显著。这些改进表明，具有丰富语义信息的密集图像可以补偿雷达点的稀疏性和噪声，增强雷达对多孔的、非金属的或远距离的物体感知。此外，通过使用图像深度分布图和雷达3D占用网格实现的精确图像视图变换放大了与图像融合的有效性。这些结果和分析表明 “雷达占用辅助的、基于深度的采样法” 视图变换的优越性。
在这里插入图片描述

图3展示了我们的LXL模型的可视化结果，它对各种物体类别均能实现准确检测。值得注意的是，在某些情况下，LXL甚至能检测到未被标注的物体（例如，图3第二行中相机图像右下角的自行车）。此外，当雷达点云稀疏时，LXL有能力利用相机信息来检测物体。它还能够利用雷达来检测相机视图中被遮挡的物体。因此，我们的模型能有效利用这两种模态的优势，以减少漏检并提高检测精度。
TJ4RadSet上的结果：为了评估我们提出的模型的泛化能力，我们在TJ4Radset数据集上进行了额外的实验。表II显示了不同方法在TJ4DRadSet测试集上的性能，图4提供了各种场景下检测结果的可视化。这些结果证明了我们的模型在融合雷达和相机信息用于3D目标检测方面的有效性，即使在黑暗或过度照明等具有挑战性的照明条件下也是如此。
在这里插入图片描述

为了进一步研究光照条件和物体距离对我们的LXL模型的影响，我们分析了TJ4DRadSet上的检测结果。具体来说，我们根据场景的亮度将测试集划分为三个子集：黑暗、标准和过度照明（在表III中称为 “Shiny” ）。这些子集分别约占整个测试集的15%、60%和25%。我们在表III中报告了这些子集的检测精度。为了减轻道路条件的影响，我们还在表中加入了受照明条件影响较小的LXL-R的性能。通过比较相同子集上的LXL和LXL-R的结果，我们观察到图像信息在正常照明条件下是有益的，正如预期的那样。
在这里插入图片描述

有趣的是，即使在黑暗的场景中，与图像的融合也会带来一些性能提升，因为车辆的前灯和尾灯为物体分类和定位提供了宝贵的线索。然而，在过度照明的情况下，图像不清晰，性能会恶化。为了解决这个问题，可以采用简单的基于规则的方法，例如当图像质量低于某个阈值时，切换到4D成像雷达单一模态的LXL-R。由于很少有关于基于相机和4D雷达融合的3D目标检测的研究，我们的目标是提高整体性能，而对图像质量退化的鲁棒性并不是这项工作的重点。提高模型的鲁棒性将是我们未来研究的主题。
在这里插入图片描述

此外，我们在自车不同距离范围内评估了我们的模型，并在表IV中给出了结果。对于几乎所有距离的物体，LXL模型都表现出比LXL-R更高的检测精度，并且由于雷达点的稀疏性，性能随着距离的增加而降低。此外，由于来自图像的语义信息有助于识别远处的物体，因此对于远处的物体有更少的遗漏检测和更多的TP。相比之下，雷达单一模态在检测中距离物体时已经有一定的能力，图像的引入主要提高了边界框回归的准确性。由于TP的数量对AP的影响更为显著，因此远距离物体比中距离物体从多模态融合中受益更多。
D. 消融研究
在本节中，我们在VoD数据集上进行了几个实验，以验证我们模型中关键设计选择的有效性。具体来说，我们关注两个方面：图像特征提升策略和雷达在图像分支中的应用。我们研究了常用的几何特征提升策略， “采样法” 和 “溅射法” ，如第III-D节所述。对于 “溅射法” ，我们遵循LSS中采用的实现方法。表V列出了这些实验的结果。虽然与 “溅射法” 相比， “采样法” 在RoI AP方面表现出略低的性能，但在EAA AP方面，它明显优于 “溅射法” 。这一发现表明，虽然 “溅射法” 在短距离内可能有一点优势，但随着距离的增加，其性能会显著恶化，导致在更宽的范围内与 “采样法” 相比性能更低。这种现象可以归因于 “溅射法” 的点云随着距离的增加而变得越来越稀疏的特点。柱体化后，相当多的远距离BEV网格可能为空。相反，只要相应的网格位于相机视图内， “采样法” 就能确保每个3D体素均能与采样的图像特征相关联。因此， “采样法” 在捕获大范围信息方面更有效。
在这里插入图片描述

关于图像分支中的雷达辅助方式，我们将我们的 “雷达占用辅助的采样法” 与两种替代方法进行了比较。一种替代方案，即表V中的 “深度监督” ，与BEVDepth中使用的方法类似。它利用雷达点来生成图像深度分布估计的监督信号。具体地，首先将雷达点转换到图像坐标系中。随后，对于每个投影的雷达点，我们确定最近的像素，并将雷达深度指定为该像素的真实深度。在多个雷达点对应于单个像素的情况下，我们计算平均深度以确定其真实值。然而，我们发现使用这种方法时，减少训练中的深度损失是具有挑战性的。这种困难是由于雷达点固有的噪声和稀疏性而产生的。雷达测量中的噪声导致真实深度不准确，而雷达点的稀疏性使得深度估计网络的收敛困难。因此，与没有雷达辅助的方法相比，这种替代方法只在检测精度上产生了轻微的改进。
另一种替代方法为按照CRN中的方法生成雷达3D占用网格，即表V中的 “3D占用网格（CRN）”，这与我们的方法不同。将原始雷达点投影到图像平面上并按照图像深度分布图的形状进行体素化。随后，采用稀疏卷积在图像坐标系中生成雷达3D占用网格，并采用三线性采样进行图像坐标系到雷达坐标系的坐标变换。值得注意的是，上述方法与CRN中的原始方法之间存在两个差异。首先，由于雷达点来自4D雷达并包含高度信息，因此生成3D占用网格而不是2D占用图。其次，这里的特征提升方法是 “采样法” 而不是 “溅射法” ，因此在与3D图像特征相乘之前，需要对占用网格进行重新采样以转换回雷达坐标系。尽管如此，其基本思想与CRN相同。
与前面讨论的 “深度监督” 方法相比，由于3D空间中有大量的空网格， “3D占用网格（CRN）” 方法的性能受到雷达点稀疏性的影响更为显著。此外，该方法需要耗时的投影和体素化过程，而我们的方法仅依赖于简单的占用网络来直接预测雷达坐标系中的雷达3D占用网格。因此，我们的 “雷达占用辅助的采样法” 具有性能和推断速度上的优势。

结论

本文提出了一种新的相机和4D成像雷达融合模型，即LXL，用于3D目标检测。研究表明，LXL在很大程度上优于现有工作，主要是因为其精心设计的 “雷达占用辅助的、基于深度的采样法” 视图变换策略可以借助预测的图像深度分布图和雷达3D占用网格，有效地将图像PV特征转换为BEV。这种设计表明， “采样法” 有很大的改进空间，一个小的增强就可以显著促进视图变换。

—————————————————————————

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/588365