当前位置:   article > 正文

CVPR 2024 | LiDM:首个可以根据多模态条件生成逼真的激光雷达场景方法,加速107倍...

多模态论文 2024

关注公众号,发现CV技术之美

a48143980db287dc63d00379325c0406.png

本篇文章分享 CVPR 2024 论文LiDAR Diffusion:Towards Realistic Scene Generation with LiDAR Diffusion Models,利用激光雷达扩散模型生成逼真场景。

详细信息如下:

ec04725c65c406dafdf62b7e214a2ebf.png
  • 论文链接:https://arxiv.org/abs/2404.00815

  • 代码链接:https://github.com/hancyran/LiDAR-Diffusion

  • 项目主页:https://lidar-diffusion.github.io/

背景

近年来,我们观察到可控生成模型的激增,这些模型能够生成具有视觉吸引力且高度逼真的图像。其中,扩散模型(Diffusion Models)因其无可挑剔的性能而成为最流行的方法之一。为了能够在任意条件下生成,潜在扩散模型(Latent Diffusion Models)。其后续应用(例如,Stable Diffusion、Midjourney、ControlNet)进一步增强了其条件图像合成的潜力。

从图像扩散模型到LiDAR扩散模型

这一成功让我们思考:我们是否可以将可控扩散模型(Controllable Diffusion Models)应用于自动驾驶和机器人技术的LiDAR场景生成?

例如,给定一组Bounding Boxes,这些模型能否合成相应的激光雷达场景,从而转化为高质量且昂贵的标记数据?

或者,是否可以仅从汽车上摄像头捕捉的图像去生成相应的 3D 场景?

或者,我们能否设计一种语言驱动的 LiDAR 生成器来进行可控仿真?

为了回答这些问题,我们的目标是设计包含多种条件的扩散模型,以生成逼真的LiDAR的场景。

相关工作

我们从近期自动驾驶相关的扩散模型中观察到了一些现象。基于点的扩散模型,即LiDARGen引入了无条件的LiDAR场景生成。然而,该模型往往会产生嘈杂的背景(例如道路、墙壁)和模糊的物体(例如汽车),导致无法生成 LiDAR 真实场景。

此外,在没有任何压缩的情况下对点应用扩散可以在计算上减慢推理过程。此外,直接应用潜式扩散模型(Latent Diffusion Models)来生成LiDAR场景在定性和定量上都产生了无法令人满意的性能。

LiDAR扩散模型

为了实现条件 LiDAR 真实场景生成,我们提出了一种基于曲线的生成器,称为LiDAR 扩散模型(LiDAR Diffusion Models),以回答上述问题并解决先前工作的一些不足。LiDAR 扩散模型能够将多种条件作为输入,例如边界框、相机图像和语义图。

LiDAR 扩散模型利用range images作为 LiDAR 场景的表示,这在各种下游任务中都很常见,例如检测、语义分割和生成。这种选择基于距离图像和点云之间的可逆和无损转换,以及高度优化的 2D 卷积运算的实质性好处。为了在扩散过程中掌握 LiDAR 场景的语意信息,我们的方法在扩散过程之前对LiDAR 场景编码至一个潜式空间中。

为了进一步提高对现实世界中LiDAR 数据真实性的模拟,我们关注三个关键组成部分:图案真实性、几何真实性和物体真实性

首先,我们在自动编码过程中利用曲线压缩来提取LiDAR中点的曲线形态。

其次,为了达到几何的真实感,我们引入了基于点的坐标监督,以使我们的自动编码器能够理解场景级几何。

最后,我们通过结合Patch-based下采样策略来扩大感受野,以捕获在视觉上较大物体的完整上下文。

通过以上提出的模块,扩散模型能够有效地合成高质量的 LiDAR 场景,同时还表现出卓越的性能,与LiDARGen相比,加速了107倍,并支持任意类型的基于image和基于token的条件为输入

4c72ca4639a646b553f282004ace12b3.png

实验

LiDAR Diffusion在无条件LiDAR生成(Unconditional Generation)中实现state-of-the-art:

246b198ad283015f76311a04eacf7b45.png d3eb1453c459189f2063654162e19ad0.png

LiDAR Diffusion同样可以在多种条件下生成相应的LiDAR场景:

51be82dc2bc3e8d3bd60f4835d241df0.png
Semantic-Map-to-LiDAR
1ffeaf71ea6dc43ac751cf58fb535eae.jpeg
Camera-to-LiDAR
1226067a519866ee5f84bf44c78d0eb9.png
Text-to-LiDAR

f4bf231bf0ddf97fa6764dea970b43f2.jpeg

END

欢迎加入「场景生成交流群 本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/697017

推荐阅读