赞
踩
本文介绍使用雷达与多视角相机融合,实现3D目标检测、3D目标跟踪、道路环境BEV分割,它是来自ICCV2023的。
会讲解论文整体思路、输入数据分析、模型框架、设计理念、损失函数等。
论文地址:CRN: Camera Radar Net for Accurate, Robust, Efficient 3D Perception
代码地址:https://github.com/youngskkim/CRN
CRN,全称是Camera Radar Net,是一个多视角相机-雷达融合框架。
通过融合多视角相机和雷达的特性,生成语义丰富且空间精确的BEV特征图。实现3D物体检测、跟踪和BEV分割任务。CRN的框架图,如下图所示:
框架的思路流程:
1)摄像头和雷达数据的融合
2)语义空间准确性
3)多模态可变形注意力
4)性能和效率
论文背景
雷达辅助视图转换(Radar-assisted View Transformation, RVT),是CRN的一个核心组成部分,它利用雷达测量帮助将“透视视图”中的图像上下文特征转换为“BEV特征图”。
雷达辅助视图转换过程,主要分为两点:
1、图像特征编码和深度分布
2、雷达特征编码和雷达占用预测。
投影雷达点:首先,将雷达点投影到相机的视角,找到雷达点在图像上对应的像素位置。这一步骤保留了雷达点的深度信息,即物体距离相机的距离。
体素化:然后,将这些带有深度信息的图像像素转换为体素(三维像素),这一过程在创建一个三维空间的表征中非常关键,尤其是转换到BEV表示时。
特征转换:通过上述步骤,可以利用雷达的深度信息来指导图像特征在三维空间中的正确位置,从而实现从透视视图到BEV的精确转换。
尽管雷达数据可能包含噪声,但RVT技术正是利用了雷达在测量距离方面的准确性,来改善和优化视图转换过程,使得最终生成的BEV特征更加精确和有用。
公式版理解——视锥体视图转换
在视锥体视图转换中,考虑了图像的深度分布和雷达的占用信息。思路流程:
图像上下文特征图通过以上操作,转换为相机视锥体视图特征
其中,;表示沿着通道维度的拼接操作。⊗表示外积。
公式版理解——融合为BEV特征
在获得了多个相机视锥体视图的特征之后,包括和,需要将它们合并到单一的BEV空间中。
为了实现这一转换,使用了支持CUDA的Voxel Pooling技术,并对其进行了修改,以便使用平均池化而不是求和来聚合每个BEV网格内的特征。
这样做有助于网络预测与自车距离无关的更一致的BEV特征图,因为近距离的BEV网格将关联更多的视锥体网格,这是由于透视投影的特性。
MFA,全称是Multi-modal Feature Aggregation,表示多模态特征聚合。它是基于多模态可变形交叉注意力MDCA实现的,即Multi-modal Deformable Cross Attention。
作者设计的MDCA是一种特别适合于多模态融合的注意力机制。
其中,h表示注意力头、m表示模态、k表示采样点。
对多模态特征映射,应用注意力权重和采样偏移。
生成的BEV特征图可以用于多种下游任务,如3D物体检测、跟踪、BEV分割等。
这种统一和精确的BEV表示为自动驾驶系统提供了一个强大的基础,使其能够更好地理解和预测环境中的动态变化。
深度分布网络训练
3D检测和跟踪
BEV分割
在nuScenes数据集上进行实验,该数据集提供大规模的Radar点云数据。
在nuScenes 测试集上的 3D 目标检测,测试结果如下图所示。
在nuScenes 测试集上的 3D 目标跟踪,测试结果如下图所示。
在nuScenes 测试集上的BEV分割,测试结果如下图所示。
视图变换方法的消融实验 ,LiDAR和雷达仅用于变换,不用于特征聚合。
特征聚合方法的消融实验。
组件的推理时间分析。 所有延迟数字均使用批量大小 1、GPU 预热和 FP16 精度进行测量。
模型效果可视化:
本文先介绍到这里,后面会分享“多模态融合”的其它数据集、算法、代码、具体应用示例。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。