IT小白

这个屌丝很懒，什么也没留下！

热门标签

Multi-Modal Fusion Transformer for End-to-End Autonomous Driving （TransFuser）论文笔记

作者：IT小白 | 2024-05-24 13:56:37

踩

multi-modal fusion transformer for end-to-end autonomous driving

原文链接：https://arxiv.org/pdf/2104.09224.pdf

本文是针对端到端的驾驶任务提出的方法。

1.引言

图像由于缺乏场景需要的3D几何信息，在不受控制的十字路口等地点，以及车辆闯红灯或是行人从被遮挡区域出现后穿越公路的情况下表现较差。激光雷达点云包含了3D几何信息，但较为稀疏，且无法识别红绿灯信号。

之前的方法通常在感知任务上进行多模态融合，关注于学习一个捕获3D场景语义和几何信息的表达。它们的融合主要基于图像空间和激光雷达视图之间的几何特征投影，且通常在每个特征的邻域内聚合信息。但该邻域假设会降低复杂场景下的性能，例如在十字路口，自车需要考虑多智能体和红绿灯之间的交互作用。

本文在不同模态的特征提取层中加入transformer的注意力机制，来聚合3D场景的全局上下文推理。最终模型称为TransFuser，并整合到端到端驾驶的自动回归路径点预测框架中。

3.方法

本文提出端到端驾驶的网络模型，包含多模态融合transformer和自动回归路径点预测网络，如下图所示。

3.1 问题描述

点对点导航任务的目标是安全地对其他智能体做出反应并遵守交通规则，完成给定路线。

模仿学习（IL）：目标是学习模仿专家策略 $\pi^\ast$ 的策略 $\pi$ 。策略是输入到路径点的映射，这些路径点被输入到单独的低级控制器来输出执行操作。

行为克隆（BC）方法是IL的监督学习方法。首先使用专家策略在环境中生成大小为 $Z$ 的数据集 $D=\{(X^i,W^i)\}_{i=1}^{Z}$ ，其中 $X$ 是高维环境观测（包含图像和激光雷达点云）， $W=\{w_t=(x_t,y_t)\}_{t=1}^{T}$ 是BEV下的专家轨迹（自车坐标系）。

策略 $\pi$ 的学习是在数据集 $D$ 上使用损失函数 $L$ ：

$\arg\min_{\pi}=\mathbb{E}_{(X,W)\sim D}[L(W,\pi(X))]$

由于前人工作表明使用历史观测信息不会带来性能增益，因此仅使用单帧输入。使用预测轨迹 $\pi(X)$ 和专家轨迹 $W$ 之间的 $\textup{L}_1$ 距离作为损失函数。

然后考虑一个进行低级控制（转向、油门和刹车）的逆动力学模型（即PID控制器） $\mathbb{I}$ ，给定未来轨迹 $W$ ，输出行为 $a$ ，即 $a=\mathbb{I}(W)$ 。

全局规划器：产生起点到目标点的大致路径，由目标路径点的GPS坐标集合 $G$ 表示。注意该目标路径点比用策略预测的路径点更加稀疏。

3.2 输入、输出参数化

输入表达：将激光雷达点云分为地平面上/下两部分后，分别转换为固定分辨率2D BEV网格上的直方图，得到两通道伪图像。对于图像，在其中央裁剪出固定大小的区域以避免边缘的径向扭曲。

输出表达：预测BEV下未来 $T$ 时间内的轨迹 $W$ （当前帧的自车坐标系），即 $T$ 个路径点的序列 $\{w_t=(x_t,y_t)\}_{t=1}^T$ 。

3.3 多模态融合transformer

Transformer的结构包含多头自注意力（生成多个 $Q,K,V$ 分别进行自注意力，然后进行拼接）和前馈网络（公式略）。

如图1所示，将图像编码器和激光雷达BEV编码器的中间层特征处理后作为transformer的输入，进行多尺度的特征融合。

具体而言，设有 $S$ 个不同模态，对某一中间层，每个模态的特征图大小为 $H\times W\times C$ 。则将所有特征堆叠为 $(S\ast H\ast W)\times C$ 的序列，然后添加相同大小的位置嵌入（可学习参数），以使模型在训练时推断不同特征的空间依赖性。此外，自车的当前速度标量被线性层投影为 $C$ 维向量作为速度嵌入。然后将输入序列、位置嵌入和速度嵌入按元素相加，得到最终的transformer输入张量。Transformer的输出和输入有相同大小，被分解为 $S$ 个 $H\times W\times C$ 的特征图，送回原来的模态分支，与原始的特征图叠加。

这里的介绍以及本文的实验中，多模态输入为相同大小的张量。但实际上看描述应该可以接受不同大小的数据（通道维度相同即可）。

由于处理高分辨率特征图计算昂贵，因此将输入特征图下采样到固定的低分辨率，输入transformer中。输出使用双线性插值到上采样大小。

最后各模态编码器的输出在空间上进行均值池化，然后相加输入到路径点预测网络中。该特征向量为环境的紧凑表达，编码了3D场景的全局上下文。

3.4 路径点预测网络

首先将特征向量通过MLP得到低维向量，传递到由GRU实现的自动回归路径点网络，并用其初始化GRU的隐状态。此外当前位置和目标位置也被输入，使网络关注隐状态的相关上下文。

使用单层GRU，用线性层从隐状态预测路径点偏移量 $\{\delta w_t\}_{t=1}^T$ ，得到预测路径点 $\{w_t=w_{t-1}+\delta w_t\}_{t=1}^T$ 。GRU的输入是原点。

控制器：根据预测路径点，使用两个PID控制器分别进行横向和纵向控制，获得转向、刹车和油门值。将连续帧路径点向量进行加权平均，则纵向控制器的输入为其模长，横向控制器的输入为其朝向。

3.5 损失函数

计算当前帧自车坐标系下的专家轨迹路径点和预测轨迹路径点的 $\textup{L}_1$ 损失，即

$L=\sum_{t=1}^T\left \| w_t-w_t^{gt} \right \|_1$

4.实验

任务：沿预定义的路径导航。路径由全局规划器产生，包含稀疏目标点的GPS坐标和相应的导航指令（如跟随车道、左/右转弯、变道等）。自车需按照交通规则在规定时间内到达目标点。

数据集：训练和验证数据使用CARLA模拟器根据专家策略生成（该专家策略的性能也会被评估，作为学习的性能上限）。

指标：包含下列3项：

路线完成度（RC）：完成路径的百分比；
驾驶分数（DS）：即路径完成度按照违规系数加权，其中违规稀疏考虑了碰撞、偏离路线、车道违规、闯红灯等；
违规次数。

Baseline：包含仅使用相机作为输入的条件模仿学习方法CILRS、知识蒸馏方法LBC，以及本文的3个变体：无激光雷达输入和融合（称为AIM）；无transformer（称为晚期融合或LF）；将transformer替换为基于投影的特征融合方法（称为几何融合或GF，即点云到图像以及图像到点云的多尺度特征融合）。

4.1 结果

仅基于图像的方法中，CILRS性能最差；LBC在短距离路线上的表现很好，但在长距离路线上的表现很差。AIM的性能更佳。

引入激光雷达后，LF的性能均比前面三种方法更好，且GS在短距离路线上的表现最佳，但它们的DS相比于RC低得多。这可能是由于未进行全局上下文推理，模型仅关注朝目标点导航而忽略障碍。

本文的TransFuser性能最佳，说明注意力能有效聚合3D场景的全局上下文。

局限性：所有方法都经常闯红灯，这是由于红绿灯在图像中几乎不可见，且由于无红绿灯监督，网络学习很困难。

4.2 注意力图可视化

绝大多数的查询最关注另一模态的相应区域，说明TransFuser可以有效聚合多模态信息。此外，在交叉路口，TransFuser倾向于关注车辆和红绿灯。

4.3 消融研究

多尺度融合、多层注意力和位置编码对性能（主要是DS）均有帮助。注意去掉某些成分可能会提高RC，但DS会降低，而本文关注的是驾驶安全性。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/617716

Multi-Modal Fusion Transformer for End-to-End Autonomous Driving （TransFuser） 论文笔记