赞
踩
可靠地感知环境状态的能力,尤其是对象的存在及其运动行为,对于自动驾驶至关重要。在这项工作中,我们提出了一个有效的深度模型,称为MotionNet,以共同执行3D点云的感知和运动预测。MotionNet将一系列LiDAR扫描作为输入,并输出鸟瞰(BEV)图,该图对每个网格单元中的对象类别和运动信息进行编码。MotionNet的骨干是新颖的时空金字塔网络,它以分层方式提取深层的时空特征。为了在时间和空间上都实现预测的平滑性,对MotionNet的训练进行了进一步的调整,使其具有新颖的时空一致性损失。大量实验表明,该方法总体上优于最新技术,包括基于最新场景流和3D对象检测的方法。这表明了所提出方法的潜在价值,可以作为基于边界框的系统的备份,并为自动驾驶中的运动规划器提供补充信息。代码链接:https://github.com/pxiangwu/MotionNet
在大规模nuScenes数据集上评估了方法,并与环境状态估计的不同现有技术进行了比较,包括基于场景流和对象检测的现有技术。实验结果证明了该方法的有效性和优越性。研究表明MotioNet在现实环境中对自动驾驶的潜在价值:它可以与其他模块协同工作,并为运动计划提供互补的感知和运动信息。总而言之,工作的主要贡献是:
•提出了一种名为MotionNet的新型模型,用于基于BEV地图的联合感知和运动预测。MotionNet没有边界盒,可以为自动驾驶提供补充信息;
•提出了一种新颖的时空金字塔网络,以分层方式提取时空特征。这种结构简单且效率高,因此适合实时部署。
•发展出时空一致性损失,以约束网络训练,从而增强时空预测的平滑性;
•广泛的实验验证了我们方法的有效性,并提供了深入的分析来说明我们设计背后的动机。
MotionNet管道包括三个部分:(1)从原始3D点云到BEV地图的数据表示;(2)时空金字塔网络为骨干;(3)特定任务的head,负责网格单元的分类和运动预测。
输入是一系列3D点云,其中每个原始点云帧均由其本地坐标系描述。需要将所有过去的帧与当前帧同步,即通过坐标变换表示自我车辆当前坐标系内的所有点云。这对于抵消自动驾驶车辆的自我运动并避免虚假的运动估计至关重要。此外,它还为静态背景聚合了更多点,同时提供了有关运动对象运动的线索。
与2D图像不同,3D点云稀疏且不规则散布,因此无法使用标准卷积直接进行处理。为了解决这个问题,将点云转换为BEV地图,适用于经典2D卷积。具体来说,我们首先将3D点量化为常规体素。与Voxelnet与second通过PointNet 将每个体素内的点分布编码为高级特征不同,仅使用二进制状态作为体素的代理,指示体素是否被至少一个点占据。然后,将3D体素晶格表示为2D伪图像,其高度尺寸对应于图像通道。这样的2D图像实际上是BEV图,其中每个单元都与沿垂直轴的二进制矢量相关联。通过这种表示,可以将2D卷积应用于BEV地图而不是3D卷积。
与依靠3D体素或原始点云的现有技术相比,该方法允许使用标准2D卷积,在软件和硬件级别上都很好地支持它们,因此效率非常高。此外,BEV地图保留了高度信息以及度量空间,从而使网络可以利用先验技术对物体进行物理扩展。
如上所述,我们模型的输入实际上是2D伪图像序列。为了有效地捕获时空特征,遵循了有关视频分类任务的最新研究精神,即建议将庞大的3D卷积替换为低成本的卷积(例如2D卷积)。但是,与经典视频分类任务仅预测整个图像序列的一个类别标签不同,该任务的目标是在当前时间对每个BEV晶格单元进行分类,并估计其未来位置。特别地,有两个问题需要解决。首先,何时以及如何汇总时间特征,时间卷积的时间对于实现良好的性能至关重要 。其次,如何提取多尺度时空特征,这些特征对于捕获密集预测任务中的局部和全局上下文都是必不可少的。
为了解决这些问题,开发了时空金字塔网络(STPN),以分层的方式沿空间和时间维度提取特征;参见图3。STPN的基本构建块是时空卷积(STC)块。每个STC块均由标准2D卷积和紧随其后的退化3D卷积组成,以分别捕获空间和时间特征。3D卷积的核大小为k×1×1,其中k对应于时间维。这样的3D滤波器本质上是伪1D卷积,因此可以降低模型的复杂性。
为了促进多尺度特征学习,STPN使用STC块在空间和时间上计算特征层次。特别是,对于空间维,以缩放比例为2的比例在多个尺度上计算特征图。类似地,对于时间维,在每次时间卷积后逐渐降低时间分辨率,从而提取不同尺度的时间语义。为了在不同级别上融合时空特征,执行全局时间池化以捕获显著的时间特征,并通过横向连接将其传递到特征解码器的上采样层。这种设计鼓励局部和全局时空上下文的流动,这有利于密集预测任务。STPN的整体结构仅依赖2D和伪1D卷积,因此非常高效。
为了生成最终输出,在STPN的末尾附加三个头:(1)单元分类头,本质上执行BEV图分割并感知每个单元格的类别;(2)运动预测头,预测未来单元的位置;(3)状态估计头,估计每个小区的运动状态(即静止或运动),并提供用于运动预测的辅助信息。
我们与以下方法进行比较:(1)静态模型,它假定环境是静态的。(2)FlowNet3D 和HPLFlowNet,它们估计两个点云之间的场景流。我们通过假设线性动力学来采用这两种方法:给定在时间t−δ和t处两点云之间的流量∆d,将流量预测为n∆d。然后将预测的流量投影到BEV图上以进行性能评估。(3)PointRCNN,它从原始点云预测3D对象边界框。在获得点云序列的边界框之后,使用卡尔曼滤波器来跟踪对象并预测它们的未来轨迹。轨迹最终转换为BEV地图。(4)LSTM-Encoder-Decoder,它估计多步OGM。我们通过在MotionNet上使用相同的输出头,同时保留其主干结构,使此方法适应我们的任务。
The ability to reliably perceive the environmental states,particularly the existence of objects and their motion behavior, is crucial for autonomous driving. In this work, we propose an efficient deep model, called MotionNet, to jointlyperform perception and motion prediction from 3D pointclouds. MotionNet takes a sequence of LiDAR sweeps asinput and outputs a bird’s eye view (BEV) map, which encodes the object category and motion information in eachgrid cell. The backbone of MotionNet is a novel spatiotemporal pyramid network, which extracts deep spatial andtemporal features in a hierarchical fashion. To enforcethe smoothness of predictions over both space and time,the training of MotionNet is further regularized with novelspatial and temporal consistency losses. Extensive experiments show that the proposed method overall outperformsthe state-of-the-arts, including the latest scene-flow- and3D-object-detection-based methods. This indicates the potential value of the proposed method serving as a backupto the bounding-box-based system, and providing complementary information to the motion planner in autonomous driving.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。