赞
踩
在堆云端算力这件事上,车企只有三个选择:
和特斯拉的 Dojo 一样从零做起,自研高算力芯片。虽然成功后收益很高,但要面临技术和资金双重压力,目前特斯拉 Dojo 超算中心的进度同样不明朗,属于高风险高收益的方式。
购买英伟达的芯片自建超算中心,虽然比第一种方式简单了不少,但是自建云端超算中心的难度依旧不亚于造车。
与国内现有的云服务商合作,共建云端超算中心。卷完了云端算力之后,车端算力成了第二战场。
不过在车端芯片上,算力高不是唯一标准,还必须要考虑架构。
智驾芯片虽然是底层硬件,但是开发过程非常强调「算法优先」——比如 Transformer 架构出现后,很多芯片由于没有提前适配所以没办法运行,要想跟上需求的发展,就必须更加关注前沿算法。
端到端大模型则意味着行业进入了 AI 定义汽车的 2.0 时代,无高精地图、多传感器信息前融合、强大的规则算法能力是实现端到端的技术关键。
端到端智驾大模型需要的地图,是人类也能看的懂的导航地图。
元戎启行和安霸都提到,目前特斯拉的智驾系统后台同时运行着 V11(规则算法)和 V12(端到端大模型)两套方案,在不同的路况下会切换使用。
两套方案的能力互补。
贴近人脑的端到端大模型,具备更强的推理能力和博弈能力——比如遇到突发情况时,规则算法只会根据规则死板执行命令,而端到端则可以根据理解灵活操作。
基于人工代码的规则算法,在计算能力上更具优势——比如在泊车时,规则算法可以通过精确的计算,选择最完美的倒车入库路径,而端到端则会像人一样边开边调整,不断揉库。
吴新宙用了一个很形象的比喻来描述端到端大模型和上一代规则算法的关系,端到端大模型天赋更高,未来可以成为博士,但是在成长的过程中,也需要小学老师、初中老师去教导,而这些老师,就是规则算法。
目前的端到端大模型处于起步阶段,还需要不断成长才能趋于完美,因此在未来几年,端到端大模型和规则算法两套方案相辅相成应该是大势所趋。
目前车端搭载的普遍为云端大模型,存在隐私和稳定性两方面的缺点,因此只能用于娱乐、对话等功能。而当通用大模型部署到车端本地之后,就可以参与一些更重要的工作中去,比如帮助智驾大模型做一些判断等。
于是一条条强大的baseline形成了,极大地压缩了DRL的用武之地。我们可以试着用强化学习理论解释一下工业界的套路:通过各种不general的设定大大简化了MDP要素,比如状态空间基本都是低维伯努利分布(对应有限数量的接近开关),transition概率全是脉冲分布(完全确定性),不需要reward引导,也不用探索,依靠简单规则就能形成高性能policy。
因此,只有那些任务逻辑本身非常复杂,难以依靠限定场景进一步简化,而又能设法满足算法数据需求的应用才适合DRL。目前符合这些要求的机器人应用场景是非常有限的,但也不是没有,更详细的判别标准可以参考以下链接:深度强化学习落地方法论(2)—— 需求分...
但是如果是在开放环境,就是说真实世界当中,例如在真实世界当中去做无人驾驶,或者是说我们在这个工厂当中去帮助工厂去省电等等这些问题的话,你会发现你就需要去更好地去降低这个环境和智能体交互样本的数量。因为现实生活当中这些样本的数据量是有限的,是非常贵的。你没有办法像在游戏里面无限地去采样这些相关的样本。
所以说,其实强化学习的落地会非常关注的是,策略能否在有限的真实样本中去学习出一个比较好的性能。于是相关的一些应用,一般来说都会首先建议,要么我用有监督学习的方法去模仿专家,他是怎么去完成这些任务;要么就是我先构建一个模拟器,在这个模拟器当中就像封闭的游戏世界一样,去学习好一个强化学习的策略。然后再通过一个叫做Sim-to-real transfer的技术,也就是从这个模拟环境往真实环境去做迁移的这样一个技术,使它能够把这个学习好的模拟环境当中表现非常好的策略迁移到真实环境当中去,它也能够非常奏效。这个技术也是现在越来越多的一个研究的方向。有了这些技术之后,强化学习就可以在各种各样的开放环境当中、开放问题当中去做出智能决策的落地。
著名Tesla黑客Green前段时间发过一条twitter称在V12技术栈里还是能够发现规则的代码。对此我的理解是Green发现的代码很可能是V12高速技术栈保留的V11版本代码,因为我们知道目前V12其实只是用端到端替换了原本城市技术栈,高速仍旧会切回V11的方案,因此在破解的代码中找到一些规则代码的只言片语并不代表V12是假“端到端”而是找到的很可能是高速的代码。
实际上我们从2022年的AI Day上就可以看出,V11及以前的版本已经是混合方案,因此V12如果不是彻底的模型直出轨迹,那么方案上就和之前的版本没有什么本质的区别了,如果是这样V12的性能跳跃性提升又没办法合理的解释了。
总而言之,无论是感知后处理代码,还是规划的候选轨迹打分,甚至是安全兜底策略,一旦引入了规则的代码,有了if else的分支,整个系统的梯度传递就会被截断,这也就损失了端到端系统通过训练获得全局优化的最大优势。
确实以一个大模型来完成从传感器输入到规划控制信号的映射是最为彻底的端到端,也很早就有公司尝试过类似的方法,例如Nvidia的DAVE-2和Wayve等公司就使用了类似的方法。这种彻底的端到端技术确实更接近黑盒,很难进行debug和迭代优化,同时由于传感器输入信号如图像,点云等是非常高纬度的输入空间,输出控制信号如方向盘转角和油门刹车踏板是相对输入来说非常低维的输出空间。由高维空间向低维空间的映射是由非常多的可行映射,然而这其中真正对应正确可靠逻辑的映射则只是其中一个映射,也就是说直接进行这样的端到端训练非常容易过拟合,导致实车测试完全无法使用。
端到端系统因为需要所有模块都达到一个较高的性能水平才能在端到端的决策规划输出任务中达成较好的效果,因此普遍认为端到端系统数据门槛远高于各个单模块的数据需求,而数据的门槛不仅是对绝对数量的要求,还对于数据的分布和多样性要求极高,这就使得自己没有车辆的完全控制权,不得不适配多个拥有不同车型客户的供应商在开发端到端系统时候可能遇到较大的困难。
在算力门槛上,Musk曾在今年三月初在链接上表示目前FSD的最大限制因素是算力,而在最近马老板则表示他们的算力问题得到了很大的环节,几乎就在同一时间在2024年Q1财报会议上Tesla透露如今他们已经拥有35000块H100的计算资源,并透漏在2024年底这一数字将达到85000块。毫无疑问Tesla拥有非常强大的算力工程优化能力,这意味着要达到FSD V12目前的水平,大概率35000块H100和数十亿美金的基础设施资本开销是必要前提,如果在算力使用方面不如Tesla高效,那么可能这一门槛会被进一步拔高。
最后端到端对于现在的自动驾驶研发团队还是一个组织变革,因为从L4自动驾驶以来,绝大多数自动驾驶团队的组织架构是模块化的,不仅分为感知组,预测组,定位组,规划控制组,甚至感知组还分视觉感知,激光感知等等。而端到端的技术架构直接干掉了不同模块间的接口壁垒,使得研发端到端的团队需要整合全部人力资源来适应新的技术范式,这对不够灵活的团队组织文化是一个极大的挑战。
· 端到端的难点在于planning,开环测试的结论,在实际闭环上基本没有太大意义。planning 的难点在于,这是一个“自反馈”的过程,系统需要有“纠偏”能力,每一步小的误差都会逐步积累,最终系统可能会跑到某个奇怪的“状态”上。这样的特性导致实际应用时,开发测试调试成本很高。
· Paper里虽然有rl,irl等各种fancy的做法,但是考虑到实际可行性(worldsim很难,比设计自动驾驶策略更难),效率(数据效率,训练效率,inference 效率..),稳定性(减少随机性)等各种因素出发,实际工业界最多采用的还是传统的监督学习方案(例如behavior clone,直接学习某个固定的策略,或者人类驾驶者的行驶轨迹),但监督学习这种方式,通常都是基于单帧的输出,难以在帧间的输出建立比较好的连续性和一致性。
· learning 化的另一个挑战在于黑盒。遇到bad case的时候不好解,通常只能简单的针对case堆数据,期望数据量上去后,模型能“自动”学习到解法。但这个都是后话了。第一步的难点其实是让车能在最简单的路况下稳定的跑起来。简单是指普通直道,不考虑其他车辆。稳定是指整个系统能跑5分钟以上,车不会明显跑出车道。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。