赞
踩
在此前的 Tesla AI Day 盛会上,特斯拉除了发布 Optimus “擎天柱”机器人,同时公布了自动驾驶 Full Self-Driving Computer (FSD) 的技术细节。其中包含纯电动汽车 (BEV) 的感知神经网络 Occupancy Network (栅格网络)、Interactive Planning (交互规划)、Lanes Network (车道网格)、Auto Labeling (自动标注) 等方面的视觉自动驾驶技术。今天让我们来硬核拆解FSD创新的底层技术。
Occupancy Network是纯视觉自动驾驶技术的里程碑,它是一种基于学习函数空间的三维重建表示方法。
和传统多视图立体几何算法相比,学习模型的方法能够编码3D形状空间中的丰富先验信息,这有助于解决输入的模糊性,其3D表征离散化的不同输出的对比如下图所示,可以看出栅格网络数据最为清晰。
生成模型的方法在高分辨率的图像上已经取得了很好的效果,但是还没有复制到3D领域。与2D领域相比,暂时还没有就3D输出表示达成一致,这种表示既能提高内存效率,又能从数据中有效推断。
出自论文:Occupancy Networks: Learning 3D Reconstruction in Function Space
该技术被特斯拉应用于自动驾驶领域,Occupancy Network在HydraNet基础上通过添加高度这个维度对2D BEV空间进行扩展,其首先对图像的特征图进行MLP学习生成Value和Key,在BEV空间通过栅格坐标的位置编码来生成Query,新栅格的区别是采用原有的2D栅格和高度一起构成3D栅格,对应生成的特征也从BEV特征变成了Occupancy特征。
自动驾驶中交互规划非常重要,本次特斯拉主要采用交互搜索来解决复杂路口的交互建模,其中交互搜索分为三个步骤:树搜索、神经网络轨迹规划和轨迹打分。
规划是自动驾驶的另一个重要模块,特斯拉这次主要强调了在复杂路口对交互 (Interaction) 进行建模。
为什么交互建模如此重要?因为其他车辆、行人的未来行为都有一定的不确定性。一个智能化的规划模块要在线进行多种自车和他车交互的预测,并且对每一种交互带来的风险进行评估,并最终决定采取何种策略。
其交互规划分为三步:
(1)树搜索进行轨迹规划,有效发现各种交互情形,找到最优解。但用搜索的方法来解决轨迹规划问题遇到的最大困难是搜索空间过大。
(2)确定目标后,确定一条到达目标的轨迹。传统的规划方法往往使用优化来解决该问题,解优化并不难,每次优化大约花费1到5毫秒,但是当前面步骤树搜索给出的候选目标较多时,无法负担时间成本。因此特斯拉提出使用另一个神经网络来进行轨迹规划,从而对多个候选目标实现高度并行规划。
(3)得到一系列可行轨迹后,选择一个最优方案。这里采取的方案是对得到的轨迹打分,打分方案集合了人为制定的风险指标、舒适指标,还包括了一个神经网络的打分器。
通过以上三个步骤的解耦,特斯拉实现了一个高效且考虑交互的轨迹规划模块。
特斯拉的车道网格网络借鉴了慎独学习语言模型中Vector Lane模块。
整个模块的思路是把车道线相关信息包括车道线节点位置,车道线节点属性(起点、中间点、终点等)、分叉点、汇合点,以及车道线样条曲线几何参数进行编码,做成类似语言模型中单词Token的编码,然后利用时序处理办法进行处理。
Lanes Network在模型结构上,是感知网络架构基础上的一个Decoder。相比解码出每个像素的Occupancy和语义,解码出一系列稀疏的、带连接关系的车道线更为困难,因为输出的数量不固定,此外输出量之间还有逻辑关系。
数据是AI算法训练和正确决策的基石。特斯拉在此次盛典上介绍的Auto Labeling是在Vector Space上的标注,需要对数据进行分析处理、搭建数据标注工具。
通过一个离线大模型对数据进行标注,车载模型相当于对大模型进行蒸馏;并且拥有强大的数据采集能力。其核心技术方面使用了三维重建与视觉SLAM等算法。
特斯拉对无人驾驶数据的重视可以表明数据是一切深度学习模型的基石,模型只有通过充分、大量、高质量的标注数据进行训练,才能提升鲁棒性和精准性,但自动标注依然无法达到人工标注的精准、可靠。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。