赞
踩
这两天偶然刷到了这篇知乎文章:轨迹预测的视觉方法综述,22年的,就找来看了一下,这边也做一下记录。文章的地址:Vision-based Intention and Trajectory Prediction in Autonomous Vehicles: A Survey
摘要的意思就是“我是一篇综述,我批判性比较了最近两三年的预测模型,总结了常见的数据集和对应的评价方法”。
引言部分中有以下一些总结(ps: 基本是边看边翻译,有条件还是自己看下原文):
预测任务包括两个方面,一是其他道路参与者的意图,参与者包括车辆,行人,骑行人等,意图是指直行左转右转(这就是意图预测或者行为预测);第二个方面就是参与者的轨迹预测。预测任务表现好可以帮助planning模块,避免交通事故,提升安全性,许多公司都专门建立的预测的pipeline。
预测方法包括两类:physics-based models 和
machine learning-based models。physics-based模型非常早,是利用动力学方程,推导未来的位置,这种方法没有利用环境信息,因此没法捕捉高level的信息以及不确定性。机器学习方法,优点多多,能捕捉高维信息,很好建模时间和空间上的特征,提供合适的多模预测。
ML的方法,关注使用LiDAR数据场景下的预测(模型有LiDAR数据直接输入),有的致力于输出occupancy maps。这篇综述,区别于前两者,是聚焦于视觉输入,以ego perspective or BEV视角的。
参看上图,预测任务的输入,包括所有交通参与者的历史特征序列。特征可能包括agent的位置,速度,heading, pose, 以及环境信息 I,可以是RGB images 形式,LIDAR点云形式,HD地图,semantic segmentation 地图等。
任务1,意图预测任务,大多数情况下,这是一个分类问题,意图维嘉帝国是一种状态或者一个未来行为。任务二是预测未来的一段时间的位置,,一般是一系列的位置点+一个置信度c。
预测任务的困难在于一下几点:
Dynamic: 都是移动物体,需要序列化的信息。
Multi-agent: 参与者类型多,行人和车辆的特性就不一样,且交通参与者之间会互相影响。
Stochastic: 随机性强,机动性强,多模,相同的历史轨迹,可能导致不同的未来行为。
Partially observable: 这是说有一些障碍物可能被追踪的时间是有限的。
Real-time requirement: 实时性需求高。
综上所述,一个理想的预测算法,应该能在线地实时地建模自车和他周围交通参与者,时空的特征,而且是partial observability的情况下,得到多模的带概率的预测输出。
文章展示了预测领域有关的几个数据集。相关的metric 指标就不介绍了。
物体的意图,受下列因素的影响:
the agent’s own belief or will , 一般不能被观察。
its social interactions。 即与环境的交互,可以用社交池化、图神经网络、注意力等建模。
environmental constraints。 道路布局,就是哪里有路,有几条路等,这种一般在地图信息中。
contextual information。这里指RGB frames, LiDAR point clouds, optical flow, segmentation maps等这些因素。
物体的未来轨迹,更具有挑战性,它是一个连续空间的回归问题。
就着上面的表,文章从一下几点总结了一些 Take-home Messages:
不得不说,看这种文章还是比较费力的,整体说下来可能没有太多新得东西(对入了门的人来说),有价值的可能是table 2 的那个表,以及提到的处理方法及对应的文章。中间涉及的文章太多,很多也都没有看过,所以这种综述文章一般读起来都比较慢,其实不少细节还是没理解透彻。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。