当前位置:   article > 正文

动驾驶中的单目 3D 车道线检测——综述_3d车道线检测

3d车道线检测

车道线检测是自动驾驶中最基本和关键的安全任务之一。这一重要感知任务的应用范围从 ADAS(高级驾驶员辅助系统)功能如车道保持到更高级别的自主任务,如与高清地图和轨迹规划的融合。给定在自动驾驶车辆上收集的输入 RGB 图像,车道线检测算法旨在在图像上提供结构化线的集合,每条线代表 3D 车道线的 2D 投影。这种算法本质上是二维的,因为输入和输出都驻留在同一个图像空间中。

另一方面,Monocular 3D Lane Line Detection旨在从单个图像直接预测道路场景中车道的 3D 布局。具体来说,3D 车道线检测算法在相机坐标系的 3D 度量空间中输出一系列结构化的车道线。最近,学术界和工业界已经在探索这项任务的可行性和应用方面做出了一些努力。

https://gitee.com/studywangke/zdjs

2D 和 3D Lane Line Detection 的比较(来源:CurvedLanes和3D LaneNet)

将 2D 车道线检测提升到 3D

一种简单的方法是使用逆透视映射 (IPM) 将 2D 车道检测结果重新投影回 3D 空间。IPM 是一种单应变换,可将透视图像变形为鸟瞰 (BEV) 图像。但是,IPM 假定地面平坦,并且是静态且经过良好校准的相机外在因素。在现实世界的驾驶环境中,道路很少是平坦的,并且由于速度变化或崎岖不平的道路,相机外在因素对车身运动很敏感。

IPM 将透视图像中的信息投影回 3D 空间(图像取自3D-LaneNet)

因此,正确的方法是恢复检测到的 2D 车道线上每个点的深度。如果我们在推理时可以使用激光雷达等主动 3D 测量设备,则通过将 3D 测量分配给车道线点,2D 到 3D 的提升相对简单。如果我们在推理时只有相机图像,理论上,我们可以利用单目深度估计的最新进展来为车道线点分配深度值。虽然这种方法是通用的,但它的计算量很大。这篇博文回顾了更轻量级的方法来直接预测车道线点的 3D 位置。

与其他单目 3D 任务的关系

单目 3D 车道线检测是对其他单目 3D 任务的补充,这些任务可以从单个 RGB 图像预测驾驶环境的 3D 信息,例如单目 3D 对象检测单目 BEV 分割。也许并不奇怪,如何从单目图像中准确地恢复环境深度是这些领域的核心。


二维车道探测网络

在我们深入研究 3D 车道线检测算法之前,一个重要的 2D 车道线检测算法是重新审视LaneNetTowards End-to-End Lane Detection: an Instance Segmentation Approach , IV 2018)。它的 2D 车道线检测性能已经被许多新算法超越,但在当时还是相当创新的,它的许多想法构成了 3D 车道线检测的基础。

它对 2D 车道线感知的贡献是提出了一种用于车道线语义分割的分段然后聚类方法——我们稍后将在Semi-local 3D LaneNet中再次讨论这个想法。更有趣的是,它还使用称为 H-Net 的轻量级网络直接从透视图像预测单应变换(以 3x3 矩阵 H 的形式)。单应变换矩阵 H 本质上是将采样的车道线点投影到 BEV 的 IPM,用于优化车道拟合后处理。这里的基本假设是车道应该由 BEV 空间中的三阶多项式完美描述。

The overall pipeline of LaneNet (source: LaneNet)

LaneNet 采用的另一个隐含假设是车道线位于平坦的道路上。对于有坡度的非平坦道路,没有一个最好的 IPM 可以描述透视图像和 BEV 图像之间的转换,LaneNet 仍然使用单应变换逼近道路相机模型。

那么问题是——描述非平坦道路的最佳转换是什么?可能会争辩说,最好的转换应该准确地将地平线(相机图像中道路和天空之间的交汇点)映射到无限深度,或者您可能会争辩说最好的转换应该将最接近自我汽车的车道线投影到 3D 中的平行线空间。LaneNet 将最佳变换定义为一种映射,该映射使拟合曲线的重投影误差最小化。

3D 车道探测网络

普及单目 3D 车道线检测领域的开创性工作是来自通用汽车以色列研究中心的3D-LaneNet (ICCV 2019)。 3D LaneNet 不需要诸如平坦地面假设之类的脆弱假设,它只假设对局部路面的摄像机滚动为零。与 2D LaneNet 一样,它也估计 2D 透视图像和 3D 局部道路平面之间的单应变换。与直接预测单应矩阵的 LaneNet 不同,3D LaneNet 预测唯一确定单应矩阵的相机高度和间距。这两个参数是以监督的方式学习的。

3D LaneNet 网络架构(来源:3D-LaneNet)

网络架构是从图像转换为 BEV 空间的双通路主干。这实际上让我想起了自监督深度学习Sfm-learner (CVPR 2017) 中的 PoseNet 结构,它预测 6 DoF 自我运动,然后用它来扭曲相邻图像。

基于锚点的 3D 车道线表示

它不是直接预测车道线点的深度,而是首先预测相机的俯仰/高度,从而构建道路投影平面。道路投影平面根据摄像机安装俯仰角

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/692067
推荐阅读
相关标签