赞
踩
点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
论文作者 | 汽车人
编辑 | 自动驾驶之心
“原标题:Rank-DETR for High Quality Object Detection
论文链接:https://arxiv.org/pdf/2310.08854.pdf
代码链接:https://github.com/LeapLabTHU/Rank-DETR
作者单位:清华大学 北京大学 剑桥大学 微软亚洲研究院
”
现代 detection transformers (DETR) 使用一组目标查询(object queries)来预测边界框列表,按分类置信度分数对它们进行排序,并选择top-ranked 预测作为给定输入图像的最终检测结果。高性能的目标检测器需要对边界框预测进行准确的 rank。对于基于 DETR 的检测器,由于分类分数和定位精度之间的不匹配,top-ranked 边界框的定位质量不太准确,从而阻碍了高质量检测器的构建。在这项工作中,本文通过提出一系列 rank-oriented 的设计(统称为 Rank-DETR),介绍了一种简单且高性能的基于 DETR 的目标检测器。本文的主要贡献包括:(i)rank-oriented 架构设计,可以促进正预测并抑制负预测,以确保较低的误报率,以及(ii)rank-oriented 损失函数和匹配成本设计,在 ranking 期间优先预测更准确的定位精度,以提高高 IoU 阈值下的 AP。本文应用该方法来改进最近的 SOTA 方法(例如 H-DETR 和 DINO-DETR),并报告了在使用 ResNet-50、Swin-T 和 Swin-L 等不同 backbones 时强大的 COCO 目标检测结果,证明本文方法的有效性。
本研究的主要重点是使用 DETR 构建高质量的目标检测器,该检测器在相对较高的 IoU 阈值下表现出强大的性能。本文认为在构建这些检测器时为边界框预测建立准确的 ranking order 至关重要。为了实现这一目标,本文引入了两种 rank-oriented 设计,可以有效地利用精确 ranking information 的优势。首先,本文在每个 Transformer 解码层之后提出一个 rank-adaptive classification head 和一个 query rank layer。rank-adaptive classification head使用 rank-aware 可学习 logit 偏差向量调整分类分数,而 query rank layer 将额外的 ranking embeddings 融合到目标查询(object queries)中。其次,本文提出了两种 rank-oriented 优化技术:损失函数修改和匹配成本设计。这些函数促进了模型的 ranking procedure,并优先考虑与真实情况相比具有更高 IoU 分数的更准确的边界框预测。总之,本文的 rank-oriented 设计持续增强了目标检测性能,特别是高 IoU 阈值下的 AP 分数。
图 1:说明 rank-oriented 架构设计。(a) rank-oriented 架构由最后 L − 1 Transformer 解码器层之前的 query rank layer和每个 Transformer 解码层之后的 rank-adaptive classification head 组成。(b) rank-adaptive classification head 学习相应地调整分类分数。(c) query rank layer 利用最新的 ranking information 来重新创建用作以下 Transformer 解码器层的输入的内容查询(content queries)和位置查询(position queries)。
图 2:rank-oriented 匹配成本和损失设计的可视化。(a) 原始 DETR 及其变体使用分类头和边界框回归头来执行预测。匹配成本函数是分类分数和边界框重叠分数的线性组合。(b) rank-oriented 匹配成本和损失方案使用 GIoU 感知的分类头和高阶匹配成本函数来优先考虑更准确的定位精度的预测。
Pu, Y., Liang, W., Hao, Y., Yuan, Y., Yang, Y., Zhang, C., Hu, H., & Huang, G. (2023). Rank-DETR for High Quality Object Detection. ArXiv. /abs/2310.08854
① 全网独家视频课程
BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
② 国内首个自动驾驶学习社区
近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!
③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
④【自动驾驶之心】平台矩阵,欢迎联系我们!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。