赞
踩
24年3月,上海AI Lab联合香港科技大学、香港大学等发布Generalized Predictive Model for Autonomous Driving。作者提出了通用的大规模自动驾驶视频预测模型GenAD,在实现过程中,进一步提出了迄今为止最大的自动驾驶场景训练数据集OpenDV-2K。
OpenDV-2K数据集具有开放领域的多样性:地理位置,地形,天气条件,安全关键场景,传感器设置,交通要素等。
GenAD以SDXL模型为基础,UNet主干,采用两阶段训练,不但能实现零样本推理,文本、动作条件控制的智驾预测,还可以扩展到路径规划。
当然作者还在实验部分展示了很多技巧,在这里就不一一赘述,请参见原文。
Generalized Predictive Model for Autonomous Driving-https://arxiv.org/abs/2403.09630
本专题由深圳季连科技有限公司AIgraphX自动驾驶大模型团队编辑,旨在学习互助。内容来自网络,侵权即删,转发请注明出处。文中如有错误的地方,也请在留言区告知。
本文介绍了自动驾驶领域的第一个大规模视频预测模型。为了消除高成本数据收集的限制,增强模型的泛化能力,我们从网络上获取大量数据,并将其与多种高质量的文本描述配对。由此产生的数据集积累了超过2000小时的驾驶视频,涵盖了世界各地不同天气条件和交通场景的地区。我们的模型被称为GenAD,继承了最近潜在扩散模型的优点,用新颖的时间推理块处理驾驶场景中具有挑战性的动力学。我们展示了它可以以零样本的方式推广到各种没见过的驾驶数据集,超过了一般或特定驾驶的视频预测同行。此外,GenAD还可以应用于动作条件预测模型或运动规划器,在实际驾驶应用中具有很大的潜力。
自动驾驶智能体作为高级人工智能的一个很有前景的应用,能够感知周围环境,构建内部世界模型表征,做出决定,并采取相应的行动。然而,尽管学术界和工业界几十年来一直在努力,但它们的部署仍然局限于某些领域或场景,无法在全球范围内无缝应用。一个关键原因是学习模型在结构化自动驾驶系统中的泛化能力有限。通常,随着地理位置、传感器配置、天气条件、开放集对象等的变化,感知模型面临着泛化到不同环境的挑战;预测和规划模型不能推广到具有罕见和不同驱动意图的不确定性未来场景。
受人类如何学习感知和认知世界的启发,我们提倡将驾驶视频作为通用界面,推广到具有动态未来的各种环境中。
基于此,驾驶视频预测模型更倾向于充分捕捉有关驾驶场景的世界知识(图1)。通过预测未来,视频预测器本质上学习了自动驾驶的两个重要方面:世界如何运行,以及如何在野外安全机动?
Figure 1. Overview of the GenAD paradigm. 我们的目标是通过提供迄今为止最大的多模式驾驶视频数据集OpenDV-2K和一个在给定过去视觉和文本输入的情况下预测未来的生成模型GenAD,为自动驾驶建立一个通用的视频预测范式。GenAD的强大泛化和可控性在各种任务中得到了验证,包括零样本域转移、语言条件预测、动作条件预测和运动规划。
最近,社区开始采用视频作为界面来表示各种机器人任务的观察行为和动作。在经典视频预测和机器人等领域,视频背景多为静态,机器人运动速度慢,视频分辨率低。相比之下,对于驾驶场景,它难以应对高度动态的室外环境、包含更大运动的智能体以及覆盖大范围视野的分辨率。这些差异给自动驾驶应用带来了巨大的挑战。幸运的是,在开发驾驶领域的视频预测模型方面已经有了一些初步尝试。
尽管在预测质量方面取得了有希望的进展,但这些尝试并没有像经典机器人任务(例如操作)那样达到理想的泛化能力,它们要么局限于有限的场景,如低交通密度的高速公路和小规模的数据集;或限制条件,导致难以产生多样化的环境。
如何揭示视频预测模型在驾驶方面的潜力仍然很少被探索。
在上述讨论的推动下,我们的目标是建立一个自动驾驶的视频预测模型,能够推广到新的条件和环境。为此,我们必须回答以下问题:(1)哪些数据可以以可行和可扩展的方式获得?(2)如何建立一个预测模型来捕捉动态场景的复杂演变?(3)我们如何将基础模型应用于下游任务?
Scaled Data
要实现强大的泛化能力,需要大规模、多样化的数据语料库。通过在基础模型中成功地学习互联网规模数据,受此启发,我们从网络和公开许可的数据集构建了我们的驾驶数据集。由于受监管的收集过程,数据在规模和多样性方面受到限制;与现有的选择相比,在线数据在几个方面具有很大的多样性:地理位置,地形,天气条件,安全关键场景,传感器设置,交通要素等。为了保证数据的高质量和适合大规模训练,我们在YouTube上详尽地收集驾驶记录,并通过严格的人工验证删除意外的损坏帧。此外,视频与各种文本级条件配对,包括借助现有基础模型生成精细化的描述,以及由视频分类器推断的高级指令。通过这些步骤,我们构建了迄今为止最大的公共驾驶数据集OpenDV-2K,包含超过2000小时的驾驶视频,比广泛使用的nuScenes大374倍。
我们的数据集可以在https://github.com/OpenDriveLab/DriveAGI获取。
Generalized Predictive Model
学习一个通用驾驶视频预测器generalized driving video predictor面临几个关键挑战:生成质量、训练效率、因果推理和剧烈的视图转换。我们通过提出一种具有两阶段学习的新型时间生成模型来解决这些问题。为了捕获环境细节,提高生成质量,同时保持训练效率,我们建立在最近成功的潜在扩散模型(latent diffusion models, ldm)的基础上。
与传统的时间模块不同,我们的解决方案由因果时间注意和解耦的空间注意组成,可以有效地模拟高动态驾驶场景中剧烈的时空变化。经过充分的训练,我们的自动驾驶生成模型GenAD可以以零样本的方式推广到各种场景。
Extensions for Simulation and Planning
经过大规模视频预测的预训练,GenAD基本上了解了世界是如何演变的,以及如何驾驶。我们展示了如何将其学到的知识用于现实世界的驾驶问题,即模拟和规划。对于模拟,我们用未来自车轨迹作为附加条件微调预训练模型,将未来想象与不同的自车行为联系起来。
我们还通过使用轻量级规划器将潜在特征转换为自车的未来轨迹,使GenAD能够在具有挑战性的基准上执行规划。由于准确预测未来帧的能力,我们的算法在模拟一致性和规划可靠性方面都显示出很好的结果。
我们引入了OpenDV-2K,一个用于自动驾驶的大规模多模态数据集,以支持通用视频预测模型的训练。其主要组成部分是一个巨大的高质量的YouTube驾驶视频语料库,这些视频是从世界各地收集的,经过精心策划的过程后被收集到我们的数据集中。我们使用视觉语言模型自动为这些视频创建语言标注。为了进一步提高其传感器配置和语言表达的多样性,我们将7个公开许可的数据集合并到OpenDV-2K中,如表 1 所示。因此,OpenDV-2K总共占用了2059小时的视频与文本配对,其中包括来自YouTube的1747小时和来自公共数据集的312小时。我们分别使用OpenDV-YouTube和OpenDV-2K来指定无标定的YouTube分支和整个数据集。
表 1 提供了与其他公共数据集的简要比较。除了其显著的规模之外,提议的OpenDV2K代表了以下方面的多样性。
Globe-wise Geographic Distribution
由于网络视频数据的全球性,OpenDV-2K覆盖了全球40多个国家和244个城市。与以前的公共数据集相比,这是一个巨大的进步,以前的公共数据集通常是在少数受限区域收集的。我们在图 2 中绘制了OpenDV-YouTube的具体分布。
Open-world Driving Scenarios
我们的数据集在开放世界中提供了大量真实的驾驶体验,涵盖了森林等罕见环境,大雪等极端天气条件以及响应交互式交通情况的适当驾驶行为。这些数据对多样性和泛化至关重要,但在现有的公共数据集中很少被收集。
Unrestricted Sensor Configurations
目前的驾驶数据集局限于特定的传感器配置,包括相机的内在和外在参数、图像、传感器类型、光学等,这给将学习到的模型部署到不同的传感器上带来了很大的挑战。
相比之下,YouTube驾驶视频是在各种类型的车辆中记录的,这些车辆具有灵活的摄像头设置,这有助于在使用新摄像头设置时训练模型的鲁棒性。
从庞大的网络资源中寻找干净的驾驶视频是一项乏味而昂贵的任务。为了简化这个过程,我们首先选择某些视频上传者,即youtuber。从平均长度和整体质量来看,我们收集了43个youtuber, 2139个高质量的前视驾驶视频。为了确保训练集和验证集之间没有重叠,我们从3个youtuber中获取视频进行所有的验证,剩下的视频作为训练集。为了排除视频介绍和订阅提醒等非驾驶帧,我们在每个视频的开头和结尾都删除了一定长度的片段。然后使用VLM(如BLIP-2)模型的语言上下文来描述每个帧。通过手动检查这些上下文中是否存在某些关键字(如"words", "watermark", "dark", "blurry"),我们进一步删除了不适合训练的黑帧和过渡帧。图 3 展示了数据集构建管道,我们将介绍如何生成上下文。
Figure 3. Dataset construction of OpenDV-YouTube with quality check in the loop. 我们从具有高质量驾驶视频的YouTubers中收集视频,并处理那些视点不合适或涉及场景转换的视频。然后使用VLM描述每一帧的语言上下文,然后对文本进行关键字检查,如“单词”、“水印”、“暗”、“模糊”等。通过这个过程,扭曲或完全黑色的图像被清洗掉。分类器classifier以高级意图为命令标注视频,将高质量视频文本对的最终数据语料库孵化为长 1747 小时。
为了使预测模型可控并提高样本质量,将驾驶视频与有意义且多样的语言标注配对是至关重要的。我们为OpenDV-YouTube构建了两种类型的文本,ego-vehicle的驾驶命令和帧描述,即“command”和“context”,分别帮助模型理解ego actions和open-world concepts。对于命令commands,我们在Honda-HDD-Action上训练了一个视频分类器,以4s序列标注自车14种类型的动作。这些分类命令commands将进一步映射到预定义字典中的多个自由格式表达式。对于上下文contexts,我们利用已建立的视觉语言模型BLIP-2来描述每帧的主要对象和场景。
考虑到BLIP-2注释是为静态帧生成的,而不理解红绿灯转换等动态驾驶场景,我们利用了几个公共数据集来提供驾驶场景的语言描述。
### nuPlan、talk2car、ONCE dataset、Honda Research Institute Driving Dataset (HDD)
然而,他们的元数据相对稀疏,只有“阳光之路”等几个词。我们使用GPT进一步增强了他们的文本质量,以形成描述性的“上下文”,并通过对每个视频片段的记录轨迹进行分类来生成“命令”。最终,我们将这些数据集与OpenDV-YouTube集成,以建立OpenDV-2K数据集,如表 1 的最后一行所示。
车载摄像头拍摄的视野广阔,视觉内容丰富,包括道路、背景建筑、周围车辆等,需要强大而稳健的生成能力,才能产生连续逼真的驾驶场景。为了方便学习过程,我们从第一阶段的独立图像生成开始。具体来说,我们使用SDXL初始化我们的模型,这是一种用于文本到图像生成的大规模潜在扩散模型LDM,利用其合成具有大量视觉细节的高质量图像的能力。它被实现为一个带有多个堆叠卷积和注意块的去噪UNet Fθ,该UNet通过去噪潜在的噪声来学习合成图像。具体来说,给定一个被前向扩散过程破坏的有噪声输入潜在Xt,通过以下目标训练它来预测Xt的附加噪声:
其中x和Xt分别为干净潜在和噪声潜在特征,t为不同噪声尺度下的时间步长,c为指导去噪过程的文本条件,是上下文context和命令command的concatenation。为了提高训练效率,学习过程在压缩的潜在空间而不是在像素空间中进行。在采样过程中,该模型通过迭代地对最后一步的预测进行去噪,从标准高斯噪声中生成图像。
然而,最初的SDXL是在一般领域数据集上训练,比如肖像和艺术绘画,这些数据与驾驶系统无关。为了适应用于合成驾驶图像的模型,我们使用OpenDV-2K中的图像-文本对,对文本到图像生成进行微调,训练目标与方程 (1) 相同。在SDXL原始训练之后,UNet所有参数θ在此阶段进行微调,而CLIP文本编码器和自动编码器保持冻结状态。
在第二阶段,将视频的连续几帧作为过去的观察结果,GenAD被训练为对所有视觉观察结果进行推理,并以合理的方式预测未来的几帧。与第一阶段类似,预测过程也可以通过文本条件来指导。然而,由于两个基本障碍,预测高度动态的驾驶世界暂时具有挑战性。
我们提出时间推理块temporal reasoning blocks来解决这些问题。如图 4(c) 所示,每个块由三个连续的注意层组成,即因果关系时间注意层和两个解耦的空间注意层,分别针对驾驶场景中的大位移进行因果推理和建模。
Figure 4. Framework of GenAD. (a)GenAD的两阶段学习包括将图像扩散模型的图像域转移到驾驶场景(a.1 stage one)和用于对视频的时间依赖性建模的视频预测预训练(a.2 stage two)。(b) 用于第二阶段训练的GenAD中的一个transformer在每个冻结层之前具有交错的时间推理块,以对齐时空特征。(c) 所提出的时间推理块包括一个因果时间注意力(TA)和两个解耦的空间注意力(SA)层,用于提取不同轴上的特征。query网格和蓝色网格一样关注自己,而深灰色网格在因果关注中被masked。”Zero-init'附加在每个注意力块的末尾,以稳定训练。
由于第一阶段训练后的模型只能独立处理每一帧,我们利用时间注意力temporal attention在不同视频帧之间交换信息。注意力集中在时间轴上,并对每个网格特征的时间依赖性进行建模。然而,在这里,直接适应双向时间注意很难获得因果推理的能力,因为预测将不可避免地依赖于后续帧,而不是过去的条件。因此,我们通过添加因果注意掩码causal attention mask来限制注意方向,如图 4(c) 的最后一行所示,以鼓励模型充分利用过去观察到的知识,并像在真实世界的驾驶中一样忠实地对未来进行推理。我们凭经验发现,因果关系约束极大地规范了预测帧与过去帧的一致。按照通常的做法,我们还添加了时间偏差temporal bias,作为时间轴上的相对位置嵌入,以区分序列的不同帧以获得时间注意力。
由于驾驶视频的视角变化很快,特定网格中的特征在不同的时间步长可能会有很大的变化,并且很难通过时间注意力进行关联和学习,因为时间注意力的感受野有限。有鉴于此,我们引入空间注意力spatial attention,在空间轴上传播每个网格特征,以帮助收集时间注意力的信息。与二次型完全自注意相比,我们实现了一种解耦的自注意变体,它具有线性计算复杂度效率。如图4(c)所示,两个解耦的注意层分别在水平轴和垂直轴上传播特征。
直观上,第一阶段微调的空间块独立地细化了每一帧的特征,趋向于真实感。而在第二阶段引入的时间块将所有视频帧连贯性和一致性进行了对齐。为了进一步增强时空特征的交互作用,我们将提出的时间推理块与SDXL中的原始Transformer块(即空间注意、交叉注意和前馈网络)交织在一起,如图4(b)所示。
与之前的实践(ControlNet)类似,对于在第二阶段新引入的每个块,我们将其最后一层的所有参数初始化为零。这避免了在一开始就破坏训练良好的图像生成模型的先验知识,并稳定了训练过程。
- self.zero_convs = nn.ModuleList([self.make_zero_conv(model_channels)])
- ...
- zero_module(conv_nd(dims, 256, model_channels, 3, padding=1))
详细内容参见博文:
51-50 ControlNet论文和代码解读,以及自定义模型训练和图片精确控制生成实验-CSDN博客
GenAD被训练成在过去帧和文本条件的指导下,通过对噪声潜在信号进行联合去噪来预测未来。我们首先将视频片段的T个连续帧投影到一批潜在v = {vm, vn}中,前m帧潜在vm是干净的,代表历史观测值,其他n = T - m帧潜在vn表示待预测的未来。然后vn被前向扩散过程破坏为vn/t,其中t表示随机采样的噪声尺度。训练模型以观测值vm和文本c为条件来预测vn/t的噪声。
视频预测模型的学习目标如下:
其中,θ表示继承的第一阶段模型,φ表示新插入的时间推理块。遵循LDM模型训练方法,我们冻结θ,只训练时间推理块,避免干扰图像生成模型的生成能力,重点学习视频中的时间依赖关系。请注意,只有损坏帧vn/t的输出才会导致训练损失,而条件帧vm的输出会被忽略。我们的训练配方也很容易适用于视频插值,只需稍加修改,即切换条件帧的索引。
凭借在驾驶场景中训练有素的视频预测能力,进一步挖掘预训练模型在动作-控制预测和规划方面的潜力,这对现实世界的驾驶系统很重要。在这里,我们探索nuScenes上的下游任务,它提供了记录的姿态。
为了使我们的预测模型能够进行精确的自车动作控制,并充当模拟器,我们将配对的未来轨迹作为附加条件对模型进行微调。
具体来说,我们通过傅里叶嵌入将原始轨迹映射到高维特征。经过线性层进一步投影后,将其添加到原始条件中。因此,自车动作通过图 4(b) 中的条件交叉注意层注入到网络中。
通过学习预测未来,GenAD获得了复杂驾驶场景的强大表征,可以进一步用于规划。
具体而言,我们通过冻结GenAD的UNet编码器提取两个历史帧的时空特征,该编码器的大小接近整个模型的一半,并将其输入多层感知器MLP以预测未来的航路点waypoints。使用冻结的GenAD编码器和可学习的MLP层,与端到端规划模型UniAD相比,我们的规划器训练过程可以加快3400倍,充分验证了GenAD学习到的时空特征。
GenAD在OpenDV-2K上分为两个阶段学习,但具有不同的学习目标(第3章)和输入格式。在第一阶段,模型接受输入(图像-文本)对,并接受文本到图像生成的训练。我们将命令command标注广播到包含的所有帧,它针对每个4s视频序列进行标记。该模型在32个NVIDIA Tesla A100 GPU上进行了300K次迭代训练,总批大小为256。在第二阶段,训练GenAD以过去潜在和文本为条件对未来潜在进行联合去噪。它的输入是(视频片段,文本)对,其中每个视频片段为4s,2Hz。当前版本的GenAD在64个GPU上进行了112.5K的迭代训练,总批大小为64。在这两个阶段的训练中,输入帧的大小都被调整为256 × 448,并且文本条件c以p = 0.1的概率被丢弃,以便在采样中实现无分类器引导,这是扩散模型中常用的提高样本质量的方法。
Comparison to Recent Video Generation Approaches
我们以零样本生成的方式将 GenAD 与 OpenDV-YouTube、Waymo、KITTI 和 Cityscapes 上未见过地理围栏的最新进展进行了比较。图 5 描述了定性结果。图像到视频模型I2VGen-XL和VideoCrafter1不能严格遵循给定的帧进行预测,导致预测帧和过去帧之间的一致性较差。在Cityscapes上训练的视频预测模型 DMVFN 在其预测中存在形状失真,尤其是在三个没见过的数据集上。相比之下,GenAD 表现出显著的零样本泛化能力和视觉质量,尽管这些集合都没有包含在训练中。
Figure 5. Task on zero-shot video prediction for unseen scenarios.
Comparison to nuScenes Experts
我们还将GenAD与最新可用的驾驶视频生成模型进行比较,这些模型专门针对nuScenes进行训练。表 2 显示,GenAD在图像保真度FID和视频相干性FVD方面都优于以往的所有方法。具体来说,与DrivingDiffusion相比,GenAD在不将3D未来布局作为额外输入的情况下,显著降低了44.5%的FVD。为了公平比较,我们只在nuScenes数据集上训练一个模型变体GenAD-nus。
Table 2. Video generation quality compared to state-of-the-arts trained on nuScenes
我们发现,尽管GenAD-nus在nuScenes上的表现与GenAD相当,但它很难推广到像Waymo这样的模型没见过的数据集,在这些数据集上,生成的数据会退化到nuScenes的视觉模式。相比之下,在OpenDV-2K上训练的GenAD在数据集上表现出较强的泛化能力,如图 5 所示。
我们在图 6 中提供了nuScenes上的语言条件预测样本,其中GenAD从相同的起点按照不同的文本指令模拟了不同的未来。令人印象深刻的生成品质表现在错综复杂的环境细节和自车运动的自然过渡中。
Figure 6. Task on langauge-conditioned prediction.给定路口下雨场景的两帧和三个高级文本条件,GenAD相应地模拟合理的未来。
Ablation Study
每种设计的有效性如图7所示。
Figure 7. Case study for model designs. 所有组件都有助于减少伪影并提高未来预测的一致性。
Action-conditioned Prediction
Figure 8. Task on action-conditioned prediction (simulation).给定相同的起始帧和不同的未来轨迹(如第一列中的黄点所示),GenAD-act可以模拟不同自车意图下的不同未来。
给定两个起始帧和由6个未来航路点组成的轨迹w, GenAD-act按照轨迹序列想象6个未来帧。为了评估输入轨迹w与预测帧之间的一致性,我们在nuScenes上建立了一个逆动力学模型(IDM)作为评估器,该模型将视频序列投影到相应的自车轨迹中。我们利用IDM将预测的帧转换为轨迹’w,并计算输入w和预测’w之间的L2距离作为动作预测误差。与仅具有文本条件的GenAD相比,GenAD-act(文本、轨迹)大大降低了20.4%的动作预测误差,从而实现更准确的未来模拟。
Table 4. Task on action-conditioned prediction. 与仅文本条件的 GenAD 相比,GenAD-act 可以实现更精确的未来预测,遵循动作条件。
Planning Results
值得注意的是,通过GenAD的UNet编码器预提取图像特征,在单个NVIDIA Tesla V100设备上,规划自适应的整个学习过程仅需10分钟,其效率是UniAD规划训练的3400倍。
Table 5. Task on open-loop planning.一个具有轻量级MLP的冻结GenAD,在仅有前视图和可训练参数减少73倍的情况下,获得具有竞争力的规划结果。
本文研究了自动驾驶大规模通用视频预测模型GenAD的系统级开发,验证了学习到的GenAD表示对驾驶任务的适应性,即学习“世界模型”和运动规划。虽然对开放域进行了改进泛化,但模型容量的增加在训练效率和实时部署方面提出了挑战。我们在构思视频预测任务将作为未来表征学习和策略学习研究的可扩展目标。另一个有趣的方向是为更广泛的下游任务提取编码的知识。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。