赞
踩
本文介绍了DriveVLM:自动驾驶与大型视觉语言模型的融合。城市环境中自动驾驶的一个主要障碍是理解复杂且长尾的场景,例如具有挑战性的路况和微妙的人类行为。为此,本文引入了DriveVLM,这是一种利用视觉语言模型(VLMs)增强场景理解和规划能力的自动驾驶系统。DriveVLM集成了用于场景描述、场景分析和分层规划的思维链(CoT)模块的独特组合。此外,意识到VLM在空间推理和繁重的计算需求方面的局限性,本文提出了DriveVLM-Dual,这是一种将DriveVLM的优势与传统自动驾驶流程相结合的混合系统。DriveVLM-Dual实现了强大的空间理解和实时的推理速度。
在nuScenes数据集和我们的数据集上进行的广泛实验展示了DriveVLM的优越性,尤其是在少样本情况下。此外,DriveVLM-Dual超越了最先进的端到端运动规划方法。总结本文的贡献有四个方面:
DriveVLM的整体流程如图1所示。一系列图像通过大型视觉语言模型(VLM)处理,以执行特殊的思维链(CoT)推理,以得出驾驶规划结果。大型VLM涉及到一个视觉变换器编码器和一个大型语言模型(LLM)。视觉编码器产生图像token;然后,基于注意力的提取器将这些token与LLM对齐;最后,LLM执行CoT推理。CoT过程可以分为三个模块:场景描述(第3节)、场景分析(第4节)和分层规划(第5节)。
DriveVLM-Dual是一个混合系统,结合了DriveVLM和传统的自动驾驶规划,集两者之大成。它将3D感知结果作为语言提示,以增强3D场景理解能力,并通过实时运动规划器进一步细化轨迹航点。我们将在第6节详细介绍其设计和优势。
图1展示了DriveVLM和DriveVLM-Dual模型的流程。DriveVLM接受一系列图像作为输入,并通过思维链(CoT)机制,输出场景描述、场景分析和分层规划结果。DriveVLM-Dual进一步整合了传统的3D感知和轨迹规划模块,以实现空间推理能力和实时轨迹规划。
场景描述模块由环境描述和关键对象识别组成。
环境描述:驾驶环境,如天气和道路条件,对驾驶难度有着不可忽视的影响。因此,模型首先被提示输出驾驶环境的语言描述 E E E,包括几个条件: E = { E w e a t h e r , E t i m e , E r o a d , E l a n e } E = \{E_{weather}, E_{time}, E_{road}, E_{lane}\} E={Eweather,Etime,Eroad,Elane},每个都代表驾驶环境的一个关键方面。
除环境条件外,驾驶场景中的各种对象显著影响驾驶行为。与传统自动驾驶感知模块不同,后者检测特定范围内的所有对象,我们仅专注于识别最有可能影响当前场景的关键对象,这一点受到人类驾驶期间认知过程的启发。每个关键对象,记为 O c O_c Oc,包含两个属性:对象类别 c c c及其在图像上的近似边界框坐标 b ( x 1 , y 1 , x 2 , y 2 ) b(x1, y1, x2, y2) b(x1,y1,x2,y2)。类别和坐标被映射到语言模态中相应的 l a n g u a g e t o k e n i d language_token_id languagetokenid,使其能够无缝整合到后续模块中。此外,借助预训练的视觉编码器,DriveVLM能够识别可能逃避典型3D对象检测器的长尾关键对象,如道路碎片或不寻常的动物。
在传统自动驾驶管道中,预测模块通常集中于预测对象的未来轨迹。先进的视觉语言模型的出现为我们提供了执行更全面的当前场景分析的能力。
关键对象分析: 识别关键对象后,我们分析它们的特征和对自车可能的影响。特征包含关键对象的三个方面:静态属性 C s C_s Cs、运动状态 C m C_m Cm和特定行为 C b C_b Cb。静态属性 C s C_s Cs描述对象的固有属性,如路边广告牌的视觉线索或卡车的超大货物,这些在预防和导航潜在危险中至关重要。运动状态 C m C_m Cm描述了一段时间内对象的动态,包括位置、方向和行动——这些特征对于预测对象的未来轨迹和与自车的潜在互动至关重要。特定行为 C b C_b Cb指的是对象的特殊动作或手势,这些动作或手势可能直接影响自车的下一步驾驶决策。例如,交通警察的手势信号在这种情况下至关重要,因为它们可以覆盖标准交通规则,并需要自动系统做出相应响应。我们不要求模型分析所有对象的三个特征 ( C s , C m , C b ) (C_s, C_m, C_b) (Cs,Cm,Cb)。实际上,只有一个或两个适用于关键对象。
分析这些特征后,DriveVLM预测每个关键对象对自车的潜在影响 I I I。例如,路边的醉酒行人可能会走上道路并阻挡我们的道路。与传统管道中的轨迹级预测相比,分析关键对象的潜在影响对系统适应现实世界和长尾驾驶场景至关重要。
场景级总结 S S S: 场景级分析总结了所有关键对象以及环境描述。这一总结为场景提供了全面的理解,链接了接下来的规划模块。
我们将场景描述和场景分析整合起来,形成驾驶场景的总结。这个总结进一步与路线、自我姿态和速度结合,形成规划的提示。最终,DriveVLM分三个阶段逐步生成驾驶计划:元动作、决策描述和轨迹航点。
元动作A: 元动作,记为 a i a_i ai,代表驾驶策略的短期决策。这些动作分为17个类别,包括但不限于加速、减速、左转、变道、微小位置调整和等待。为了规划自车在一定时期内的未来机动动作,我们生成一系列元动作。这一序列中的每个元动作都至关重要,对于车辆在场景中的战略导航贡献累积性影响。
决策描述D: 决策描述D详细阐述了自车应采取的更细致的驾驶策略。它包含三个要素:动作A、主体S和持续时间D。动作涉及如“转弯”、“等待”或“加速”等元动作。主体指的是交互对象,如行人、交通信号或特定车道。持续时间指出动作的时间方面,指定它应该持续多久或何时开始。一个决策描述的例子是:“等待(A)行人(S)通过,然后(D)继续加速(A)并合并到右车道(S)。”。这种结构化的决策描述为自动系统提供了清晰、简洁和可操作的指令。
轨迹航点W:确定了决策描述D后,我们的下一阶段涉及生成相应的轨迹航点。这些航点,记为 W = { w 1 , w 2 , . . . , w n } W = \{w_1, w_2, ..., w_n\} W={w1,w2,...,wn}, w i = ( x i , y i ) w_i = (x_i, y_i) wi=(xi,yi),描绘了车辆在未来一定时期内的路径,具有预定的间隔∆t。我们将这些数值航点映射到语言token中进行自回归生成。通过这种方式,DriveVLM实现了其语言处理模块与空间导航的无缝整合。轨迹航点是元动作和决策描述的空间体现,可以直接输入到后续的控制模块中。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。