赞
踩
这里都说自动驾驶合大模型相关的哦
这场AI热给自动驾驶带来的新课题,已然摆在眼前。
“我们团队目前最重要的工作就是复现Sora”,清华大学助理教授剑寒(化名)告诉「智车星球」,他的主要研究方向是机器人相关的计算机视觉,“不止我们,从2月16日(Sora发布当天)开始,基本所有在这个赛道的人都在转方向。”
关于原子弹,最有价值的情报就是它可以被造出来。
这句话再次被Sora印证。
不过在剑寒看来,这很正常,“科研界可能有100种前瞻方向,不可能都尝试,OpenAI出来的效果这么好,大家开始学习他的做法,这没有什么问题。就像世界上有这么多材料,尝试到用钨做灯丝呈现出了很好的效果,大家都会跟进。”
除了技术端,资本端的跟进也很迅速。
券商的朋友甚至等不及春节假期结束就找到我,询问是否能介绍相关专家交流一下Sora对自动驾驶的影响。
这场关于“大模型+自动驾驶”能否产生新的化学反应的讨论,再次因为OpenAI带来了新一轮的热度。
1 新的仿真路线
此次Sora的推出,展示出了明显优于此前生成式视觉模型的成果,这也让不少人对其在自动驾驶仿真领域的应用产生了期待。
在51Sim CEO鲍世强看来,Sora 已经展现出了多视角长时长下一致性较高的图像,场景的真实度和细节也很好。
“其实从仿真的角度看,生成式视频模型做的事和游戏引擎没有本质区别,只是一个是更可控的显式的,一个是数据驱动的隐式的。游戏引擎的一个劣势是如果要达到较强的真实感门槛较高,需要建模大量的高质量资产,优点是可控制性和可编辑性较强,世界完全受控。但 Sora的可编辑性以及可控性从目前的展示来看还不确认,我认为挑战还是比较大。” 鲍世强解释道。“
目前,合成数据主要分为三个路线——物理仿真与图形渲染路线、基于神经辐射场(NeRF、3DGaussion 等)的场景重建路线以及基于世界模型的生成路线。
“基于世界模型的生成路线还处于发展的早期阶段,与视频创作领域不同,智驾场景落地确定性要求比较高,需要呈现出一致性和物理规律,如何可控的生成更多有价值的Corner Case 还有待深入探讨,但后续发展空间是巨大的。“ 鲍世强告诉[智车星球]。
目前,在这条垂直赛道上,国内已经有企业在做相关研究。
去年9月,极佳科技和清华大学的研究人员就推出了真实世界驱动的自动驾驶世界模型DriveDreamer。
△DriveDreamer 总体结构框图
据极佳科技CEO黄冠介绍,DriveDreamer使用了数十亿图像数据预训练的 Diffusion model 作为基础模型,并利用百万张自动驾驶场景图像帧进行模型训练,在此过程中引入了数十亿可学习参数。
DriveDreamer能够生成符合交通结构化信息的视频;可以根据文本描述改变生成视频的天气、时间等;可以根据输入的驾驶动作生成不同的未来驾驶场景视频。
“现在已经有不少客户基于DriveDreamer做数据生成、闭环仿真,Sora的出现也让我们对这个方向更确定。当然,目前还有准确性、精细度等各方面的工程问题需要继续提升。” 黄冠解释道。
2 大模型“加速”自动驾驶
虽然文本视频生成大模型完全进入自动驾驶量产环节还有不少需要提升的地方,但大模型对于自动驾驶是否有加成,在业内人士看来是一个需要做质疑的讨论。
“在过去一年多的时间内,这已经是被广泛验证的事情。”长城汽车AI Lab负责人杨继峰告诉「智车星球」,“大模型在自动驾驶领域,首先被证实效果的领域是数据重建,基于此诞生了新的场景生成在仿真领域的机会;Sora无疑规模更大也更通用,但是在自动驾驶领域的落地还需要进一步探索,特别是针对空间和语音应用。然后影响到的end to end,以及最近很热的LLM-based driving agent类型的大模型算法架构。”
简单来说,就是通过增加推理能力来处理复杂场景从而提高性能,并通过极大地简化模型开发来降低成本。
自动驾驶软件的初创公司Ghost Autonomy(曾获得OpenAI创业基金500万美元投资,旨在将大规模、多模态的大语言模型引入自动驾驶领域)的模型工程师Prannay Khosla也在文章《One Model To Rule The Road?》中提到,大语言模型(LLMs,广义上被称为基础模型)正在改变自动驾驶开发的多个环节。
首先是在理解及标注数据层面,Prannay Khosla提到模型工程的核心是数据问题,即更好的数据产生更好的模型,“更好的数据”不仅仅是关于规模,还有完备性。训练集必须代表现实世界中可能遇到的每一个概念,例如,每一种车道标记类型、每一种道路配置、每一种障碍物、建筑类型等。收集所有这些数据不仅昂贵,而且还需要进行复杂的数据挖掘,从而标注相关样本以开发出完备的训练集。人类需要数十万小时来开发这些训练集,但是它们仍然不完备。
而大型模型在解决这个问题上已被证明特别有用,能够通过语言接口对复杂问题进行zero-shot泛化(即解决从未在相关数据集上训练过的新任务),以更低的代价对数据集进行整理和标注。在这种应用中,大型模型可能不用于最终产品的推理,但用于帮助训练最终交付的模型。
其次,大模型能提升可解释性。早期的自动驾驶被庞大的代码库所主导,导致在复杂场景中难以进行调试。LLMs提供了一种与神经网络中的注意力层进行交互的新途径,使得在驾驶系统内部实现提示和可解释性成为可能。同样,这里的大型模型是一个工具,帮助开发和解释在运行时部署的其他模型。
而随着LLMs显示出可以真正“理解世界”的潜力,Prannay Khosla认为这种新的理解水平可以扩展到驾驶任务,使模型无需显式训练(Explicit Training),就能安全自然地驾驭复杂场景,这为解决“长尾问题”提供了新的路径。LLMs还显示出在决策中使用大量上下文信息的能力。
最后,Prannay Khosla也提到了基于action的生成式视觉模型,例如GANs和Diffusion models,可以在线创建逼真的驾驶场景,可以用于有效的仿真。
但同样,Prannay Khosla也提到尚不完全清楚大型视觉模型是否能生成有意思的Corner Case场景。像素级仿真渲染对于构建规划器和测试道路预测模型非常有用,但对于测试和制造自动驾驶汽车所需的规模来说,计算效率可能不高。
3 自动驾驶终局在哪?
目前,视频生成方法主要分为两类:基于Transformer和基于扩散模型。
前者源于大型语言模型方案,通常是采用对下一个Token的自回归预测或对masked Token的并行解码来生成视频。
利用Transformer进行Token预测可以高效学习到视频信号的动态信息,并可以复用大语言模型领域的经验,因此,基于Transformer的方案是学习通用世界模型的一种有效途径。
扩散模型是近两年来视频生成领域的研究热点,是“文生图”的代表,相关研究成果也有不少。比如在2D扩散模型潜在空间的基础上引入时间维度,并使用视频数据进行微调,有效地将图像生成器转变为视频生成器,实现高分辨率视频合成;有基于预训练的2D扩散模型构建了级联视频扩散模型;也有基于Transformer的扩散模型改进了视频生成。
不过,基于扩散模型的方法难以在单一模型内整合多种模态。此外,基于扩散模型的方案难以拓展到更大参数,因此很难学习到通用世界的变化和运动规律。
Sora则是结合了Transformer 和 Diffusion 两个模型,在过去DALL.E和GPT的研究基础上,采用了DALL.E 3中的重述技术。因此能更好遵循用户的文本描述,并且有极强的扩展性。
再简单些,OpenAI用GPT的能力做视频文本对齐,通过将多个高分辨率视频素材进行降维处理,然后密集训练,最后就是我们熟悉的大力出奇迹。
阳光底下无新鲜事,虽然没有网络大小、用了哪些数据、具体怎么训练等细节,但从OpenAI公布的报告中,并没有“武功秘籍”般的存在,思路和方法都是大家熟悉的东西。
但AI热与明星公司OpenAI的结合,再加上关于技术本身之外的讨论,让Sora的热度来到了极高的位置,也引出了大家对自动驾驶终局的讨论。
2月18日,马斯克在科技主播 @Dr.KnowItAll 一条主题为“OpenAI 的重磅炸弹证实了特斯拉的理论”的视频下留言,表示“特斯拉已经能够用精确物理原理制作真实世界视频大约一年了”。
随后马斯克在 X 上转发了一条 2023 年的视频,内容是特斯拉自动驾驶总监 Ashok Elluswamy 向外界介绍特斯拉如何用 AI 模拟真实世界驾驶。
训练 AI 理解和生成一个真实的场景或世界,是特斯拉与Sora一致的训练思路。
过去十几年,虽然技术在不断迭代,但自动驾驶的本质依然是通过海量数据教会系统开车,即便目前在不少环节已经有大模型加入,也只是加速了过程,并没有解决自动驾驶研发过程中遇见的问题。
“但是自动驾驶从世界感知进入到通用认知以后,自动驾驶的本质很可能就会发生变化,那就是Al Agent——LLM+Memory+Tool+Planning。自动驾驶就变成了怎么教一个通用智慧体开车的问题,通过大模型的预训练去学会推理、记忆等能力和道路驾驶等通用知识,通过SFT去强化场景驾驶行为,通过RL把数据闭环变成奖励模型。这跟当前依赖海量数据和Corner Case的思路完全不同。” 杨继峰说道。
“(自动驾驶)最终可能就是一个语言模型加世界模型。”黄冠也提出了类似观点。
可以说,对于自动驾驶,Sora这次的小试牛刀,不仅展示出了相关技术在自动驾驶仿真领域的应用潜力,更是让行业看到大模型对真实世界有了理解和模拟之后,引发了对于自动驾驶发展方向的思考。
这场AI热给自动驾驶带来的新课题,已然摆在眼前。
1: 数据标注面临的问题(特别是基于BEV 任务)
随着基于BEV transformer 任务的兴起,随之带来的是对数据的依赖变的越来越重,基于BEV 任务的标注也变得越来越重要。目前来看无论是2D-3D的联合障碍物标注,还是基于重建点云的clip 的车道线或者Occpuancy 任务标注都还是太贵了(和2D标注任务相比,贵了很多)。当然业界里面也有很多基于大模型等的半自动化,或者自动化标注的研究。还有一方面是自动驾驶的数据采集,周期太过于漫长,还涉及到数据合规能一系列问题。比如,你想采集一个平板车跨相机的场景,或者一个车道线城市多变少,少变多的场景,就需要采集人员专项去构建这样的场景。
2: 24年会是世界模型的奇点时刻吗?
世界模型这个概念太过于大,或者说成传感器仿真。在特斯拉AI day 上第一次见识到仿真对标注的颠覆
图1: 特斯拉的自动化标注效果
图二 4D 重建的效果
当时看到之后是震惊, 还是震惊!就像当成特斯拉的BEV 一样颠覆。随着越来越多的研究人员在这个方向不断发力,有很多优秀的研究呈现出来。UniSim 的自动驾驶仿真系统, 具备 重放,动态物体行为控制, 自由视角渲染等功能(这应该是每一个训练模型的同学都想拥有的) 。
还可以对lidar 进行仿真。
NeuRAD: Neural Rendering for Autonomous Driving
DrivingGaussian: Composite Gaussian Splatting for Surrounding Dynamic Autonomous Driving Scenes 以上的方法都大多和Nerf 相关,整个pipeline 都比较重。还有另一个方向,基于扩散的研究方向。目前也取得了不错的研究。
BEVControl: Accurately Controlling Street-view Elements withMulti-perspective Consistency via BEV Sketch Layout
BEVControl: Accurately Controlling Street-view Elements withMulti-perspective Consistency via BEV Sketch Layout
< MagDriver MAGIC DRIVE : STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL >
技术发展太快了,传感器仿真的门槛正在降低,有可能24年自动驾驶标注行业会出现一些颠覆性的产品出来! whaosoft aiot http://143ai.com
在快速发展的自动驾驶领域,准确预测未来事件并评估其影响的能力对安全性和效率至关重要,对决策过程至关重要。世界模型已经成为一种变革性的方法,使自动驾驶系统能够合成和解释大量的传感器数据,从而预测潜在的未来场景并弥补信息差距。本文对自动驾驶世界模型的现状和未来进展进行了初步回顾,涵盖了它们的理论基础、实际应用以及旨在克服现有局限性的正在进行的研究工作。这项调查强调了世界模型在推进自动驾驶技术方面的重要作用,希望成为研究界的基础参考,促进快速进入和理解这一新兴领域,并激励持续的创新和探索。
简介
开发能够在复杂的现实世界场景中无缝导航的自动驾驶系统,仍然是当代技术的一个强大前沿。这一挑战不仅是技术性的,而且是哲学性的,探索将人类智能与人工构建区分开来的认知和感知的本质。这一挑战的关键在于向机器灌输人类毫不费力就能运用的直觉推理和“常识”。当前的机器学习系统,尽管有着强大的能力,但在人类轻松解决的模式识别任务中往往会出现失误,这凸显了我们在寻求真正自主系统方面的巨大差距。另一方面,人类的决策深深植根于感官感知,受到这些感知的记忆和直接观察的约束。除了感知之外,人类还拥有预测行动结果、预见潜在未来和预测感官输入变化的神奇能力,这些能力是我们与世界互动的基础。在机器中复制这种能力的努力不仅是一项工程挑战,也是弥合人类和机器智能之间认知鸿沟的一步。
为了解决这一差距,世界模型已成为一种关键的解决方案,通过模拟人类感知和决策过程,为系统提供预测和适应动态环境的能力。面对现实世界场景的复杂性和不可预测性,这种进化至关重要,传统的人工智能方法难以复制人类认知过程的深度和可变性。世界模型具有弥合人类和机器智能之间认知鸿沟的潜力,为实现更复杂的自动驾驶系统提供了一条途径,这突显了世界模型的必要性。
世界模型从20世纪70年代控制理论的概念框架到目前在人工智能研究中的突出地位,反映了技术进化和跨学科融合的显著轨迹。先驱们提出的控制理论的最初公式是基础,为动态系统管理中的计算模型集成奠定了基础。这些早期的努力有助于证明应用数学模型预测和控制复杂系统的潜力,这一原理最终将成为世界模型发展的基础。
随着该领域的发展,神经网络的出现带来了范式的转变,使动态系统的建模具有无与伦比的深度和复杂性。这种从静态线性模型到动态非线性表示的转变促进了对环境相互作用的更深入理解,为我们今天看到的复杂世界模型奠定了基础。递归神经网络(RNN)的集成尤其具有变革性,标志着向能够进行时间数据处理的系统迈进,这对预测未来状态和实现抽象推理至关重要。
2018年,Ha和Schmidhuber正式公布了世界模型,这是一个决定性的时刻,捕捉到了人工智能研究界的集体愿望,即赋予机器一种让人想起人类意识的认知处理水平。通过利用混合密度网络(MDN)和RNN的力量,这项工作阐明了无监督学习提取和解释环境数据中固有的空间和时间模式的途径。这一突破的意义怎么强调都不为过,它表明,自主系统可以对其运行环境实现细致入微的理解,以以前无法达到的准确性预测未来的情景。
在自动驾驶领域,世界模型的引入标志着向数据驱动智能的关键转变,预测和模拟未来场景的能力成为安全和高效的基石。数据稀缺的挑战,特别是在纯电动汽车标签等专业任务中,突显了世界模型等创新解决方案的实际必要性。通过从历史数据中生成预测场景,这些模型不仅规避了数据收集和标记带来的限制,而且增强了在模拟环境中对自主系统的训练,这些模拟环境可以反映甚至超越现实世界条件的复杂性。这种方法预示着一个新时代的到来,在这个时代,自动驾驶汽车配备了反映一种直觉的预测能力,使它们能够以前所未有的复杂程度导航和应对环境。
本文深入研究了复杂的世界模型,探索了它们的基本原理、方法进步以及在自动驾驶领域的实际应用。它克服了困扰该领域的挑战,预测了未来的研究轨迹,并思考了将世界模型集成到自主系统中的更广泛影响。通过这样做,这项工作不仅希望记录这一领域的进展,还希望激发人们对人工智能和人类认知之间共生关系的更深入思考,预示着自动驾驶技术的新时代。
世界模型的发展
本节概述了世界模型的复杂架构,详细介绍了它们的关键组成部分以及在各种研究中的重要应用。这些模型被设计用于复制人类大脑的复杂认知过程,使自主系统能够以类似于人类思维的方式做出决策并了解其环境。
世界模型的架构基础
世界模型的架构旨在模仿人脑的连贯思维和决策过程,集成了几个关键组件:
1)感知模块:这个基本元素充当系统的感官输入,类似于人类的感官。它采用先进的传感器和编码器模块,如可变自动编码器(VAE)、Masked自动编码器(MAE)和离散自动编码器(DAE),将环境输入(图像、视频、文本、控制命令)处理和压缩为更易于管理的格式。该模块的有效性对于准确感知复杂动态环境至关重要,有助于详细了解模型的后续预测和决策。
2)记忆模块:与人类海马体类似,记忆模块可用于记录和管理过去、现在和预测的世界状态及其相关成本或回报。它通过回放最近的经历来支持短期和长期记忆功能,这一过程通过将过去的见解融入未来的决策来增强学习和适应。该模块综合和保留关键信息的能力对于深入了解一段时间内的环境动态至关重要。
3)控制/运动模块:该组件直接负责通过动作与环境进行交互。它评估当前状态和世界模型提供的预测,以确定旨在实现特定目标的最佳行动顺序,例如最小化成本或最大化回报。该模块的复杂性在于它能够集成感官数据、记忆和预测见解,从而做出明智的战略决策,应对现实世界场景的复杂性。
4)世界模型模块:在体系结构之前,世界模型模块执行两个主要功能:估计有关当前世界状态的任何缺失信息和预测环境的未来状态。这种双重能力使系统能够生成其周围环境的全面预测模型,考虑不确定性和动态变化。通过模拟潜在的未来场景,该模块使系统能够主动准备和调整其策略,反映人类认知中的预测性和适应性思维过程。
这些组成部分共同形成了一个强大的框架,使世界模型能够模拟类似于人类的认知过程和决策。通过集成这些模块,世界模型实现了对其环境的全面和预测性理解,这对于开发能够以前所未有的复杂度在现实世界中导航和交互的自主系统至关重要。
在高维感官输入场景中,世界模型利用潜在的动力学模型来抽象地表示观测到的信息,从而能够在潜在状态空间内进行紧凑的前向预测。由于深度学习和潜在变量模型的进步,这些潜在状态比高维数据的直接预测更具空间效率,有助于执行许多并行预测。以十字路口汽车方向的模糊性为例,这种情况象征着现实世界动力学固有的不可预测性。潜在变量是表示这些不确定结果的有力工具,为世界模型设想基于当前状态的一系列未来可能性奠定了基础。这项努力的关键在于将预测的确定性方面与现实世界现象的内在不确定性相协调,这是世界模型功效的核心平衡行为。
为了应对这一挑战,人们提出了各种策略,从通过温度变量引入不确定性到采用递归状态空间模型(RSSM)和联合嵌入预测架构(JEPA)等结构化框架。这些方法致力于微调预测的准确性和灵活性之间的平衡。此外,利用Top-k采样并从基于CNN的模型过渡到变换器架构,如变换器状态空间模型(TSSM)或时空逐片变换器(STPT),已显示出通过更好地近似现实世界的复杂性和不确定性来增强模型性能的前景。这些解决方案努力使世界模型的输出与现实世界的可能发展更紧密地联系在一起。这种一致性至关重要,因为与游戏环境相比,现实世界的影响因素范围要广得多,未来结果的随机性也更大。过度依赖最高概率的预测可能导致长期预测的重复周期。相反,预测中的过度随机性会导致荒谬的未来与现实大相径庭。
特别是RSSM和JEPA是世界模型研究中使用最广泛的核心结构:
1)递归状态空间模型(RSSM)是Dreamer世界模型系列中的一个关键模型,旨在促进纯粹在潜在空间内的前向预测。这种创新的结构使模型能够通过潜在状态空间进行预测,其中过渡模型中的随机路径和确定性路径在成功规划中发挥着关键作用。
图3展示了三个时间步长的潜在动力学模型示意图。该模型最初观察两个时间步长,然后预测第三个时间步长。在这里,随机变量(圆形)和确定性变量(方形)在模型的体系结构中相互作用——实线表示生成过程,而虚线表示推理路径。图3(a)中的初始确定性推理方法揭示了由于其固定性质,其在捕捉各种潜在未来方面的局限性。相反,考虑到其固有的不可预测性,图3(b)中的完全随机方法在跨时间步长的信息保持方面提出了挑战。
RSSM的创新之处在于它将状态战略性地分解为图3(c)中的随机和确定性分量,有效地利用了确定性元素的预测稳定性和随机元素的自适应潜力。这种混合结构确保了强大的学习和预测能力,适应了现实世界动态的不可预测性,同时保持了信息的连续性。通过将RNN的优势与状态空间模型(SSM)的灵活性相结合,RSSM为世界模型建立了一个全面的框架,增强了它们预测未来状态的能力,同时兼顾了精度和适应性。
2)联合嵌入预测体系结构(JEPA)通过关注表示空间而不是直接、详细的预测,标志着预测建模的范式转变。如图4所示,通过抽象输入(
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。