当前位置:   article > 正文

CVPR2024| 实时目标检测的变革:RT-DETR的突破性性能_cvpr 2024 目标检测

cvpr 2024 目标检测

论文:DETRs Beat YOLOs on Real-time Object Detection

单位: 百度公司

源代码: RT-DETR GitHub仓库​​​​​​


摘要

实时目标检测领域一直由基于CNN的架构主导,YOLO检测器领先。然而,端到端的基于变换器的检测器(DETRs)的引入彻底改变了这一领域,尽管它们的计算成本很高。在本文中,作者介绍了实时检测变换器(RT-DETR),这是一个突破性的模型,不仅在速度和精度方面实现了最先进的(SOTA)性能,而且消除了传统实时检测器中的非最大抑制(NMS)等后处理步骤的需要,这些步骤一直是传统实时检测器中的瓶颈。

关键技术和创新

RT-DETR模型建立在两个关键创新之上,使其与现有解决方案区别开来:

  1. 高效混合编码器: 作者提出了一个高效的混合编码器,通过解耦内部尺度交互和跨尺度融合来处理多尺度特征。这种设计显著降低了计算负担,同时保持了高性能,实现了实时目标检测。
  2. IoU感知查询选择: 为了进一步提高性能,作者引入了IoU感知查询选择。该机制通过在训练期间加入IoU约束,提供了更高质量的初始对象查询给解码器,从而实现了更准确的对象定位和检测。

实现和设计

RT-DETR模型的设计注重效率和性能。它包括一个主干网络、一个混合编码器和一个带有辅助预测头的变换器解码器。模型利用主干网络的输出特征,并通过混合编码器将它们转换为一系列图像特征。然后,IoU感知查询选择精炼了这些特征,为解码器提供了一组优化的查询。解码器迭代优化这些查询以生成边界框和置信度分数。

实验结果

RT-DETR模型经过广泛测试,并在各种指标上展示了卓越的性能:

  • RT-DETR-L: 在COCO val2017数据集上达到53.0%的平均精度(AP),在T4 GPU上的帧率为114 FPS。
  • RT-DETR-X: 达到54.8% AP,速度为74 FPS,超越了同规模的当代YOLO检测器在速度和精度方面的性能。
  • RT-DETR-R50和R101: 这些RT-DETR的扩展版本进一步提高了性能,其中RT-DETR-R50在108 FPS的速度下达到53.1% AP,RT-DETR-R101在74 FPS的速度下达到54.3% AP。

这些结果将RT-DETR定位为实时目标检测领域的新SOTA,为现有YOLO检测器提供了一个引人注目的替代方案。

优缺点

优点:

  • 实时性能: RT-DETR的高效设计允许实时目标检测,同时不牺牲精度。

  • 端到端检测: 消除了NMS和其他后处理步骤,简化了流程,并避免了与传统检测器相关的延迟。
  • 可扩展性: 模型支持通过使用不同解码器层灵活调整推理速度,便于在各种实时场景中应用。

缺点:

  • 计算复杂性: 虽然比传统的DETRs更高效,但模型仍然需要大量的计算资源,这可能限制其在资源受限的设备上部署。
  • 训练数据需求: 高质量的训练数据对于模型的最优性能至关重要,这在数据有限或未标注的场景中可能是一个挑战。

结论

RT-DETR模型代表了实时目标检测技术的一次重大飞跃。通过解决DETRs的计算挑战并消除NMS等后处理步骤的需要,它为从自动驾驶到视频监控的各种应用提供了一个简化、高性能的解决方案。随着该领域的不断发展,RT-DETR的创新方法为未来端到端目标检测的发展设定了新的标准。


附赠

【一】上千篇CVPR、ICCV顶会论文
【二】动手学习深度学习、花书、西瓜书等AI必读书籍
【三】机器学习算法+深度学习神经网络基础教程
【四】OpenCV、Pytorch、YOLO等主流框架算法实战教程

➤ 请关注公众号【学长论文指导】回复【156】即可获取
➤ 还可咨询论文辅导❤【毕业论文、SCI、CCF、中文核心、El会议】评职称、研博升学、本升海外学府!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/748866
推荐阅读
相关标签
  

闽ICP备14008679号