赞
踩
关注公众号,发现CV技术之美
本篇文章分享 CVPR 2024 论文LiDAR Diffusion:Towards Realistic Scene Generation with LiDAR Diffusion Models
,利用激光雷达扩散模型生成逼真场景。
详细信息如下:
论文链接:https://arxiv.org/abs/2404.00815
代码链接:https://github.com/hancyran/LiDAR-Diffusion
项目主页:https://lidar-diffusion.github.io/
近年来,我们观察到可控生成模型的激增,这些模型能够生成具有视觉吸引力且高度逼真的图像。其中,扩散模型(Diffusion Models)因其无可挑剔的性能而成为最流行的方法之一。为了能够在任意条件下生成,潜在扩散模型(Latent Diffusion Models)。其后续应用(例如,Stable Diffusion、Midjourney、ControlNet)进一步增强了其条件图像合成的潜力。
这一成功让我们思考:我们是否可以将可控扩散模型(Controllable Diffusion Models)应用于自动驾驶和机器人技术的LiDAR场景生成?
例如,给定一组Bounding Boxes,这些模型能否合成相应的激光雷达场景,从而转化为高质量且昂贵的标记数据?
或者,是否可以仅从汽车上摄像头捕捉的图像去生成相应的 3D 场景?
或者,我们能否设计一种语言驱动的 LiDAR 生成器来进行可控仿真?
为了回答这些问题,我们的目标是设计包含多种条件的扩散模型,以生成逼真的LiDAR的场景。
我们从近期自动驾驶相关的扩散模型中观察到了一些现象。基于点的扩散模型,即LiDARGen引入了无条件的LiDAR场景生成。然而,该模型往往会产生嘈杂的背景(例如道路、墙壁)和模糊的物体(例如汽车),导致无法生成 LiDAR 真实场景。
此外,在没有任何压缩的情况下对点应用扩散可以在计算上减慢推理过程。此外,直接应用潜式扩散模型(Latent Diffusion Models)来生成LiDAR场景在定性和定量上都产生了无法令人满意的性能。
为了实现条件 LiDAR 真实场景生成,我们提出了一种基于曲线的生成器,称为LiDAR 扩散模型(LiDAR Diffusion Models),以回答上述问题并解决先前工作的一些不足。LiDAR 扩散模型能够将多种条件作为输入,例如边界框、相机图像和语义图。
LiDAR 扩散模型利用range images作为 LiDAR 场景的表示,这在各种下游任务中都很常见,例如检测、语义分割和生成。这种选择基于距离图像和点云之间的可逆和无损转换,以及高度优化的 2D 卷积运算的实质性好处。为了在扩散过程中掌握 LiDAR 场景的语意信息,我们的方法在扩散过程之前对LiDAR 场景编码至一个潜式空间中。
为了进一步提高对现实世界中LiDAR 数据真实性的模拟,我们关注三个关键组成部分:图案真实性、几何真实性和物体真实性。
首先,我们在自动编码过程中利用曲线压缩来提取LiDAR中点的曲线形态。
其次,为了达到几何的真实感,我们引入了基于点的坐标监督,以使我们的自动编码器能够理解场景级几何。
最后,我们通过结合Patch-based下采样策略来扩大感受野,以捕获在视觉上较大物体的完整上下文。
通过以上提出的模块,扩散模型能够有效地合成高质量的 LiDAR 场景,同时还表现出卓越的性能,与LiDARGen相比,加速了107倍,并支持任意类型的基于image和基于token的条件为输入。
LiDAR Diffusion在无条件LiDAR生成(Unconditional Generation)中实现state-of-the-art:
LiDAR Diffusion同样可以在多种条件下生成相应的LiDAR场景:
END
欢迎加入「场景生成」交流群 本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/697017
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。