赞
踩
其实,透视图像目标检测很早就开始研究了,在博客笔记里面也躺了很多的坑没填,这个领域是一个很重要的领域,特别是在BEVFormerv2 使用透视监督后,透视的算法也又有应用的新地方了。
把个人理解的脉络梳理出来,供大家参考,欢迎指正!
预先对全部场景给出了各类目标的锚框,即Anchor-based。这种方法在一定程度上能够解决目标尺度不一和遮挡问题,提高检测精度,但缺乏效率性且很难枚举所有的方向,或为旋转的目标拟合一个轴对齐的包围框,泛化能力欠缺些。
Deep3Dbbox算法,利用2D检测框和几何投影,并预测物体3D位姿和尺寸,通过求解目标中心到相机中心的平移矩阵,使预测的3D检测框重投影中心坐标与2D检测框中心坐标的误差最小。
MonoDIS算法,利用解耦的回归损失代替之前同时回归中心点、尺寸和角度的损失函数,该损失函数将回归部分分成K 组,通过单独回归参数组来解决不同参数之间的依赖关系,有效避免了各参数间误差传递的干扰,使得训练更加稳定。
MonoDIS算法属于基于几何约束的直接回归方法。MonoDIS是一种单目3D目标检测算法,它利用了从2D图像到3D空间的几何约束来直接回归目标的3D边界框。这种方法通过分析和利用二维图像和三维空间之间的几何关系,实现了从单目图像中有效地检测和定位三维目标。
在MonoDIS中,几何约束被用来指导3D边界框的回归过程。通过结合深度估计、目标尺寸和方向的预测,以及利用从2D检测到3D空间的映射关系,MonoDIS能够直接输出目标的3D边界框坐标。这种方法避免了复杂的中间步骤,如生成和匹配锚框,从而简化了目标检测的流程。
因此,MonoDIS算法通过利用几何约束进行直接回归,实现了从单目图像中准确检测三维目标的能力。
基于Anchor的直接回归方法,且非几何约束的单目3D目标检测方法在深度学习中确实存在,但可能不如那些基于几何约束的方法那么常见或广泛研究。这是因为单目3D目标检测本身就是一个具有挑战性的任务,通常需要利用更多的几何和上下文信息来提高精度。
例如,一些研究可能探索了将Anchor机制与深度估计或特征融合技术相结合的方法,以从单目图像中直接回归3D边界框。这些方法可能通过训练模型来学习如何将2D Anchor框映射到3D空间,从而预测目标的3D位置和尺寸。
但需要注意的是,由于单目3D目标检测的复杂性,这些方法可能仍然需要一些形式的几何约束或先验知识来提高性能。
Anchor free 抛弃了需要生成的复杂锚框, 而是通过直接预测目标的角点或中心点等方法来形成检测框。
包括:逐像素目标检测算法和中心点预测
目标表示方式:
计算复杂度:
应用场景:
CenterNet。CenterNet算法的核心思想是通过预测目标中心点的位置以及尺寸来实现目标检测。它直接回归目标的中心点坐标以及宽高尺寸,无需依赖锚框(Anchor)或提议(Proposal)。这种设计简化了目标检测的任务,同时提高了检测的准确性。在CenterNet中,通过全卷积网络生成热力图,热力图的峰值位置即对应目标的中心,每个峰值位置的图像特征则用来预测目标边界框的宽度和高度。因此,CenterNet可以被归类为直接回归方法,它通过直接回归目标中心点和尺寸的方式,实现了高效且准确的目标检测。MonoCon算法在MonoDLE算法的基础上添加了辅助学习模块,提升了模型的泛化能力。MonoDLE算法进行了一系列的 实验,发现了定位误差是影响单目3D目标检测模型性能的关键因素。因此,MonoDLE改进了中心点的取法,采用了从3D投影中心而不是2D边界框中心获取中心点的方法, 以提高模型性能。此外,在实例深度估计任务上,MonoDLE采用了不确定性原理对实例深度进行估计。
SMOKE算法舍弃了对2D边界框的回归,通过将单个关键点估计与回归的三维变量,来预测每个检测目标的3D框。设计了基于关键点的3D检测分支并去除了2D检测分支。SMOKE不属于基于几何约束的直接回归方法。虽然SMOKE算法在3D目标检测中考虑了目标的几何属性,但它更侧重于通过关键点估计(Keypoint Estimation)和端到端的网络结构来实现单目3D目标检测。具体来说,SMOKE提出了一种简洁的网络结构,通过多步解缠(multi-step disentanglement)的方法来提高3D参数的收敛性以及检测的精度。它延续了Centernet的key-point做法,认为2D检测模块是多余的,只保留了3D检测模块。SMOKE预测投影下来的3D框中心点和其他属性变量,从而得到3D框。这种方法更侧重于通过关键点估计来直接回归3D框的参数,而不是完全依赖于几何约束。基于几何约束的直接回归方法通常利用目标在二维空间中的投影与其在三维空间中的实际位置之间的几何关系进行回归。虽然SMOKE在处理3D目标检测时考虑了目标的几何特性,但它并不完全依赖于几何约束进行直接回归。
基于深度信息引导的方法。这类算法利用单目深度估计模型预先得到像素级深度图,将深度图与单目图像结合后输入检测器。
虽然深度信息有助于3D场景的理解,但简单地将其作为RGB 图像的额外通道,并不能弥补基于单目图像的方法和基于点云的方法之间的性能差异。
基于点云信息引导的方法。这类算法借助激光的雷达点云信息作为辅助监督进行模型训练,在推理时只需输入图像和单目相机信息。
涉及到模型包括:Pseudo lidar、基于FCOS或DenseBox框架的改进的DD3D、CaDDN等。
3D边框表示目标的位置、尺寸和方向,是3D目标检测算法的输出。物体是否被遮挡、截断或具有不规则的形状,都用一个紧密边界的立方体包围住被检测到的目标。3D边框编码方式主要有3种,分别是8角点法、4角2高法、7参数法(常用),如下图所示。
7参数法由7个坐标参数来表示。它包括边框的中心位置(x, y, z),边框在三维空间中的尺寸(l, w, h)以及表示角度的偏航角θ。
8角点法8角点法将3D边框通过连接8个角点(c1, c2, . . . , c8)来形成。每一个角点由三维坐标(x, y, z)表示,总计24维向量。
4角2高法为了保持地面目标的物理约束,3D框的上角需要保持与下角对齐,提出了一种4角2高编码的方法。
4 个角点 (c1, c2, c3, c4) 表示3D边框底面的4个顶点,每个角点用2D坐标(x, y)表示。
两个高度值(h1, h2)表示从地平面到底部和顶部角的偏移量。根据4个角点计算出4个可能的方向,并选择最近的一个作为方向向量。
https://guo-pu.blog.csdn.net/article/details/134045064
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。