当前位置:   article > 正文

HOME heatmap trajectory prediction_home轨迹预测方法流程图

home轨迹预测方法流程图

摘要

在本文中,我们提出了 HOME,这是一个解决运动预测问题的框架,其图像输出表示代理未来位置的概率分布。 这种方法允许使用经典卷积网络的简单架构以及代理交互的注意力机制,并输出代理可能未来的无约束二维顶视图表示。 基于此输出,我们设计了两种方法来对一组有限的代理未来位置进行采样。 这些方法使我们能够控制多种模态的未命中率和最终位移误差之间的优化权衡,而无需重新训练模型的任何部分。 我们将我们的方法应用于 Argoverse Motion Forecasting Benchmark 并在在线排行榜上获得第一名。

引言

预测周围参与者的未来运动是自动驾驶管道的重要组成部分,对于安全规划和模拟现实行为非常有用。 为了捕捉驾驶场景的复杂性,预测模型需要考虑本地地图、预测代理的过去轨迹以及与其他参与者的交互。 它的输出需要是多模式的,以涵盖驾驶员在直行或转弯、减速或超车之间可能做出的不同选择。 提出的每种模式都应代表代理在不久的将来可以采取的可能轨迹。
运动预测的挑战不在于拥有绝对最接近地面实况的轨迹,而在于避免在没有考虑可能性的情况下发生重大失败,并且所有模式都完全错过了未来。
事故很少发生,因为大多数预测都被半米抵消了,而是因为一个单一的案例,其中缺乏覆盖导致超过几米的失误。
获得 k 个模态的经典方法是设计一个模型,该模型输出固定数量的 k 个未来轨迹 [6, 20, 21, 14],作为回归问题。 然而,这种方法有明显的缺点,因为训练预测一起导致模式崩溃。 这个问题的常见解决方案是只训练最接近真实情况的预测,但这会减少分配给每个预测模态的训练数据,因为每个样本只有一个正在学习。
后来的方法通过将预测调节到特定输入(如车道 [11] 或目标 [34])来使模型适应多模态问题。 最后,最近的方法使用拓扑车道图本身来为每个车道生成轨迹节点 [32]。 然而,这些模型中的每一个都将其预测空间限制为有限的表示,这可能仅限于表示可能未来的实际多样性。
例如,如果预测的模式受限于高清地图,则很难预测代理违反交通规则或减速停车在路边。
在本文中,遵循与最近最先进方法相同的原则,即未来轨迹几乎可以完全由其最终点 [34, 32] 定义,我们分三个步骤重新制定预测问题。 我们首先通过二维概率热图表示可能的期货分布,该热图给出了代理位置概率的无约束近似。 该热图表示为一个平方图像,它自然适用于多模态预测,其中每个像素代表目标代理可能的未来位置。 它还能够在概率分布中完整描述未来的不确定性,而无需选择其模式或方法。 第二步,我们从热图中采样有限数量的未来可能位置,可以选择我们想要优化的指标,而无需重新训练模型。 最后,我们基于过去的历史并以采样的最终点为条件构建完整的轨迹。
我们的贡献总结如下:
• 我们提出了一个由卷积神经网络 (CNN)、循环神经网络 (RNN) 和注意力模块组成的简单模型架构,带有热图输出,可实现轻松高效的训练。
• 我们从这个热图输出中设计了两种采样算法,分别优化了 MRk 或 minFDEk。
• 我们强调了两个指标之间的权衡,并表明我们的采样算法允许我们通过一个简单的参数来控制这种权衡。

相关工作

深度学习为运动预测结果带来了巨大进步[22]。 经典的 CNN 架构可以应用于光栅化地图以预测 2D 坐标 [6]。
为了更好地模拟驾驶代理之间的交互,已经在多种方法中引入了注意力。
[20] 的方法用一维 CNN 和 LSTM 分别编码代理和中心线,然后将多头注意力从演员应用到其他演员和台词。 MHA-JAM [21] 在特定坐标处将代理特征连接到 CNN 编码的地图,然后将注意力集中在这个联合表示上。 [17] 的工作还使用代理之间的注意力进行交互,并在编码车道上并行应用注意力头以获得车道概率并为每个给定车道生成模态。 mmTransformer [16] 应用通用 Transformer [30] 架构来融合历史、地图和交互。
另一类方法使用预定义的锚轨迹池 [4] 或基于模型的 [23, 28],并使用学习模型对它们进行排名。 这允许避免任何模式崩溃并断言现实轨迹,但消除了根据当前情况准确调整轨迹的能力。
也可以使用对实际未来概率分布进行建模的生成方法来获得多模态 [12, 19, 29, 24, 25]。 但是,生成模型需要在推理时进行多次独立采样,而没有对覆盖范围或平均距离进行任何优化。
最近,一些方法开始利用从 HD-map 获得的图来更好地表示车道连接。 VectorNet [9] 将地图特征和代理轨迹编码为折线,然后将它们与全局交互图合并。 LaneGCN [14] 分别对待过去的演员和车道图,然后将它们与车道和演员之间的一系列注意力层融合。
其他方法然后使用该图来构建其多模态输出。 TNT [34] 从 VectorNet 主干构建,并将其与从车道采样的多个目标提议相结合,以使预测点多样化。
GoalNet [33] 还识别了可能的目标,并在局部栅格上为每个目标应用了一个预测头,以便将模式建立在可到达的车道上。 WIMP [11] 将可能的折线与过去的轨迹相匹配,并将它们用作模型的条件输入。 LaneRCNN [32] 将演员特征从开始添加到车道上的采样节点,然后沿着概率预测每个节点的未来点。
基于网格的输出已经用于行人行为预测,例如 [13, 7, 18, 10, 26]。 然而,他们的模型架构、训练和采样策略与我们的有很大不同。 [27] 的工作为每个车辆类别生成未来的电网占用输出预测,以便从中进行规划,但它不是基于实例的,并且不允许单独车辆预测。

模型

TODO

实验

A. 实验设置
1) 数据集:我们使用 Argoverse 运动预测数据集 [5]。 它是一个汽车轨迹预测基准,具有 205942 个训练样本、39472 个验证样本和 78143 个测试样本。 每个样本包含过去 2s 场景中所有智能体的位置以及本地地图,标签是场景中一个目标智能体的未来 3s 位置。
2) 度量:我们报告先前定义的度量 MRk 和 minFDEk,k=1,6,由最小平均位移误差 minADEk 完成,这是所有连续轨迹点的平均 l2 误差。 我们还报告了测试集的度量 p-minFDE6 和 p-minADE6,其中 - log§ 添加到度量中,p 是分配给最佳(最接近真实情况)预测轨迹的概率。 这些后面的指标允许测量分配给预测的概率分布的质量。
3) 实现细节:我们使用以 0.001 的学习率初始化的 Adam 优化器,以 32 的批量大小训练所有模型 16 个时期。 每个样本帧都以目标代理为中心并与其标题对齐。 我们在第 3、6、9 和 13 个时期将学习率除以一半。 我们通过以 0.1 的概率丢弃每个光栅通道并在 [−π/4, π/4 中以均匀的随机角度旋转框架来增加训练数据 ] 在 50% 的样本中。 所有卷积层都是 CoordConv [15],内核大小为 3x3(1D Convs 为 3),然后是 BatchNormalization 和 ReLU 激活
B. 与最先进技术的比较
我们在 Tab 中显示。 我将我们的结果与 Argoverse 运动预测测试集上的其他方法进行了比较。 该基准由 MR6 排名,我们排名第一并显着改善了之前的结果,这表明具有热图输出可以实现相对于现有技术的最佳覆盖率。 我们在这两个方面也优于其他方法p-minFDE6 和 p-minADE6,展示了预测之间概率分布的卓越建模。
另一个有趣的观察结果是,在 minFDE6 上表现非常好的方法,例如 LaneGCN [14] 和 TPCN [31],有一个更差的 MR6 作为缺点。 PRIME [28] 的 MR6 与我们的最接近,但相比之下 minFDE6 高得多。 我们展示了使用相同训练模型针对 MR 和 minFDE 优化的采样结果。
我们使用 L = 4 的 FDE 采样为 9 厘米的 minFDE6 牺牲了 1.1 个 MR6 点,这使我们在 minFDE6 上排名第二,同时仍然足以在排行榜上排名第一。
C. 消融研究
我们讨论了差异贡献的重要性,首先将我们的输出表示与传统的标量坐标输出进行比较,然后分解我们的模型架构和采样策略。 所有指标都报告在 Argoverse 验证集上。 如果没有另外指定,则使用 MR 采样。
1) 热图输出:我们在选项卡中显示输出表示的效果。II使用相同的编码主干,并用一个全局池替换图像解码器,然后是一个6坐标模式的回归头。我们使用与[21,14,11,31,6]类似的赢家通吃l1回归损失和分类损失来训练回归输出,其中目标是通过预测和地面真相之间距离的softmax获得的,如[34,28]。由于全局池导致图像的空间信息丢失,为了公平比较,我们还包括了一个具有“标量瓶颈”的模型,其中池也应用于图像编码,然后再进行重塑以形成一个图像,在该图像上应用热图解码器。我们观察到,热图输出会产生更好的未命中率,标量池瓶颈会降低性能,因为它会造成信息丢失,但不会显著降低。有趣的是,与MRE优化的采样图像输出模型相比,回归输出达到更好的minFDE6,但仍然比FDE优化模型差,因为此标量坐标输出没有为任何后处理优化留出空间。
我们还在图5中展示了向回归输出中添加更多模式的效果:即使随着k的增加,模式总数的MRk提高,固定k(如1或6)的性能也会恶化[11] [33]注意到一个类似的趋势,当训练较少的模式时,较低的k指标会获得更好的结果。此外,对于回归输出模型,每次都需要新的训练以适应最大数量的模式,而对于热图输出,任何数量的模式都可以可以通过相同的培训随意获得,较低的k值不受提取的模式总数的影响,如MR1、MR3和MR6显示的水平虚线所示。最后,我们的模型热图输出随着k模式的数量而更好地缩放,比回归输出模型更快地收敛到0%MR。
2) 轨迹采样:我们在图6中显示了由于Algo的参数L,我们在Argoverse测试集上对MR6和FDE6进行权衡的结果。2.我们还包括排行榜前10名其他方法的得分,以供比较。我们的方法达到尽可能最好的MR6,并且允许将FDE6提高到第二最佳,同时仍在MR6中排名第一(L=4时获得第四个曲线点)。我们在表III中突出显示了我们的采样结果,并将其与其他可能的采样策略进行比较:我们尝试按概率对像素进行排序,并按降序选择它们,同时移除接近1.8m的重叠像素半径遵循经典的非最大值抑制方法。我们还尝试了[18]中使用的KMeans。
D定性结果我们在图7中显示了补充的定性结果。我们突出显示了直线、超车、弯道、地图外和交叉口的示例。我们的模型热图输出使用并通常遵循上下文图中的先验信息,但它也能够基于交互、现实观察和与历史的背离提示而从中转移

结论

我们提出了HOME,一种多模态轨迹预测的新表示法。它基于在2D俯视栅格上预测未来终点位置,然后将该终点解码为完整轨迹。此热图输出表示完整的未来概率分布及其不确定性,据此我们设计了两种预测采样方法。直接从热图分布进行采样可以实现更优化的覆盖范围,在Argover运动预测基准上实现最先进的性能。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/938996
推荐阅读
相关标签
  

闽ICP备14008679号