赞
踩
汽车革命的上半场是电动化,下半场是智能化,电动化只是改变了汽车的动力供给方式,并没有改变汽车的性质,而智能化才是这场革命的主菜,将对汽车带来颠覆性变化,汽车将由传统的机械体,变为拥有强大计算能力的智能体。
在汽车智能化的道路上,有一个拥有绝对实力的引领者,那就是Elon Musk领导下的特斯拉,其打造的自动驾驶体系是全球关注的焦点,马斯克曾在微博上发文称特斯拉打造的人工智能是世界上最为先进的。
马斯克3月6日发布微博内容
特斯拉是截止目前全球唯一一家实现了自动驾驶核心领域全栈自研自产的科技公司,在数据、算法、算力等各个层面打造了一套包含感知、规控、执行在内的全链路自动驾驶软硬件架构。
整体而言,特斯拉的自动驾驶架构是采用纯视觉方案实现对世界的感知,并基于原始视频数据通过神经网络构建出真实世界的三维向量空间,在向量空间中通过传统规控方法与神经网络相结合的混合规划系统实现汽车的行为与路径规划,生成控制信号传递给执行机构,同时通过完善的数据闭环体系和仿真平台实现自动驾驶能力的持续迭代。
下面将分别按照感知、规划与控制、数据与仿真、算力四个部分对特斯拉实现FSD(Full Self-Drive,完全自动驾驶)的核心体系进行全面解析。
根据2021年8月Tesla AI Day上的展示,特斯拉最新的感知方案采用纯视觉感知方案,完全摒弃掉激光雷达、毫米波雷达等非摄像头传感器,仅采用摄像头进行感知,在自动驾驶领域独树一帜。
人类通过眼睛感知世界的原理为:光线通过眼睛被视网膜采集信息,经过传递与预处理,信息抵达大脑视觉皮层,神经元从视网膜传递的信息中提取出颜色、方向、边缘等特征结构,再传递给下颞叶皮层,然后经过认知神经网络的复杂处理最终输出感知结果。
人类视觉感知原理
自动驾驶视觉感知方案是效仿人类视觉系统原理,摄像头便是“汽车之眼”,特斯拉汽车共计采用八个摄像头分布在车体四周,车身前部有三个摄像头,分别为前视主视野摄像头、前视宽视野摄像头(鱼眼镜头)以及前视窄视野摄像头(长聚焦镜头),左右两侧各有两个摄像头,分别为侧方前视摄像头和侧方后视摄像头,车身后部有一个后视摄像头,整体实现360度全局环视视野,最大监测距离可以达到250米。
特斯拉车身摄像头环视视野
通过“汽车之眼”采集到的真实世界图像数据,经过复杂的感知神经网络架构进行处理,构建真实世界的三维向量空间,其中包含汽车、行人等动态交通参与物,道路线、交通标识、红绿灯、建筑物等静态环境物,以及各元素的坐标位置、方向角、距离、速度、加速度等属性参数,这个向量空间不需要和真实世界的模样完全保持一致,更倾向于是供机器理解的数学表达。
利用摄像头采集数据通过神经网络输出三维向量空间
根据特斯拉在AI DAY的公开信息,经过多轮升级迭代,特斯拉目前所采用的视觉感知框架如下图所示,这是一套基于视频流数据的共享特征多任务型神经网络架构,拥有物体深度识别能力和短时记忆能力。
特斯拉视觉感知网络架构
特斯拉视觉感知网络的基础结构是由主干(Backbone)、颈部(Neck)与多个分支头部(Head)共同组成,特斯拉取名为“HydraNet”,取意自古希腊神话中的九头蛇。
主干层将原始视频数据通过残差神经网络(RegNet)及BiFPN多尺度特征融合结构完成端到端训练,提取出颈部层的多尺度视觉特征空间(feature map),最后在头部层根据不同任务类型完成子网络训练并输出感知结果,共计支持包括物体检测、交通信号灯识别、车道线识别在内的1000多个任务。
HydraNet多任务网络结构
HydraNet网络的核心特点是多个子任务分支共享同一个特征空间,相比单一任务使用独立的神经网络,具有如下优势:
1)使用同一主干统一提取特征并共享给各任务头部使用,可以避免不同任务之间重复计算现象,有效提升网络整体运行效率;
2)不同子任务类型之间可以实现解耦,每项任务独立运行不会影响到其他任务,因此对单项任务的升级可以不必同时验证其他任务是否正常,升级成本更低;
3)生成的特征空间可以进行缓存,便于各任务需求随时调用,具有很强的可扩展性。
特斯拉通过不同的汽车采集到的数据共同构建一个通用的感知网络架构,然而不同汽车由于摄像头安装外参的差异,可能导致采集的数据存在微小偏
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。