当前位置:   article > 正文

【YOLO系列】YOLOv10论文超详细解读(翻译 +学习笔记)_yolov10论文翻译

yolov10论文翻译

前言  

研究AI的同学们面对的一个普遍痛点是,刚开始深入研究一项新技术,没等明白透彻,就又迎来了新的更新版本——就像我还在忙着逐行分析2月份发布的YOLOv9代码,5月底清华的大佬们就推出了全新的v10。。。

在繁忙之余,我抽空拜读了这篇论文。不对创新方法做过多评价,但论文的框架、整理思路以及实验部分的写作手法,给正在撰写论文的我带来了极大的启发。

YOLOv10以实时的端到端目标检测能力而闻名,通过提供结合效率和准确性的强大解决方案。

随着新版本的发布,许多人已经积极展开部署测试工作,并且反馈效果看起来也是不错滴~

话不多说,我们一起来读一下吧! 

学习资料


YOLO论文系列前期回顾: 

【YOLO系列】YOLOv9论文超详细解读(翻译 +学习笔记)

【YOLO系列】YOLOv7论文超详细解读(翻译 +学习笔记)

【YOLO系列】YOLOv6论文超详细解读(翻译 +学习笔记)

【YOLO系列】YOLOv5超详细解读(网络详解)

【YOLO系列】YOLOv4论文超详细解读2(网络详解)

【YOLO系列】YOLOv4论文超详细解读1(翻译 +学习笔记)

【YOLO系列】YOLOv3论文超详细解读(翻译 +学习笔记)

【YOLO系列】YOLOv2论文超详细解读(翻译 +学习笔记)

【YOLO系列】YOLOv1论文超详细解读(翻译 +学习笔记)


目录

前言  

Abstract—摘要

翻译

精读

1 Introduction—引言

翻译

精读

2 Related Work—相关工作

翻译

精读

3 Methodology—方法 

3.1 Consistent Dual Assignments for NMS-free Training—用于无NMS训练的一致的双重训练

翻译

精读

3.2 Holistic Efficiency-Accuracy Driven Model Design—整体效率-精度驱动的模型设计

翻译

精读

4 Experiments—实验

4.1 Implementation Details—实验细节

翻译

精读   

4.2 Comparison with state-of-the-arts—与最先进技术的比较

翻译

精读

4.3 Model Analyses—模型分析

Ablation study—消融实验

翻译

精读

Analyses for NMS-free training—无NMS训练分析

翻译

精读

Analyses for efficiency driven model design—效率驱动的模型设计分析

翻译

精读

Analyses for accuracy driven model design—精度驱动的模型设计分析

翻译

精读

5 Conclusion—结论

翻译

精读


Abstract—摘要

翻译

在过去的几年里,YOLO已经成为在实时目标检测领域的主要范例,由于其有效的计算成本和检测性能之间的平衡。研究人员已经探索了YOLO的架构设计,优化目标,数据增强策略等,取得了显着的进展。然而,依赖于非最大抑制(NMS)进行后处理阻碍了端到端部署的YOLO和不利影响的推理延迟。此外,YOLO中各个组件的设计缺乏全面和彻底的检查,导致明显的计算冗余,限制了模型的能力。它呈现出次优的效率,沿着具有相当大的性能改进潜力。在这项工作中,我们的目标是从后处理和模型架构两个方面进一步推进YOLO的性能效率边界。为此,我们首先提出了一致的双重分配的NMS自由训练的YOLO,这带来了竞争力的性能和低推理延迟的同时。此外,我们介绍了整体的效率-精度驱动的模型设计策略的YOLO。我们从效率和准确性两个角度全面优化了YOLO的各个组件,这大大降低了计算开销,提高了性能。我们努力的成果是新一代的YOLO系列,用于实时端到端对象检测,称为YOLOv 10。大量的实验表明,YOLOv 10在各种模型尺度上都达到了最先进的性能和效率。例如,我们的YOLOv 10-S在COCO上的类似AP下比RT-DETR-R18快1.8倍,同时享受2.8倍的参数和FLOP。与YOLOv 9-C相比,YOLOv 10-B在相同性能下的延迟减少了46%,参数减少了25%。代码:https://github.com/THU-MIG/yolov10.


精读

YOLOv1~v9仍存在的不足

  • 后处理对非极大值抑制(NMS)的依赖阻碍了 YOLO 的端到端部署,并对推理延迟产生了不利影响。
  • YOLO中各个组件的设计缺乏全面和彻底的检查,导致明显的计算冗余,限制了模型的能力。

本文的主要方法

后处理模型架构方面进一步提升了 YOLO 的性能 - 效率边界:

  • 首先提出了 YOLO 无 NMS 训练的一致双重分配,这带来了竞争力的性能和低推理延迟。
  • 此外,介绍了整体效率 - 精度驱动的模型设计策略,从效率准确率两个角度全面优化 YOLO 的各个组件,大大降低了计算开销,提高了模型的性能。

实验结果

YOLOv10 在各种模型规模上都实现了 SOTA 性能和效率。

  • 与RT-DETR相比:YOLOv10-S在COCO上的类似AP下比RT-DETR-R18快1.8倍,同时享受2.8倍的参数和FLOP。
  • 与YOLOv 9-C相比:YOLOv10-B在相同性能下的延迟减少了46%,参数减少了25%。


1 Introduction—引言

翻译

实时目标检测一直是计算机视觉领域的研究热点,其目标是在低延迟下准确预测图像中目标的类别和位置。它被广泛应用于各种实际应用中,包括自动驾驶[3],机器人导航[11]和对象跟踪[66]等。近年来,研究人员集中精力设计基于CNN的对象检测器以实现实时检测[18,22,43,44,45,51,12]。其中,YOLO由于其在性能和效率之间的巧妙平衡而越来越受欢迎[2,19,27,19,20,59,54,64,7,65,16,27]。YOLO的检测流水线由模型前向处理和NMS后处理两部分组成。然而,这两种方法仍然存在不足,导致精度-延迟边界不理想。

具体来说,YOLO通常在训练期间采用一对多标签分配策略,其中一个地面实况对象对应于多个正样本。尽管产生了上级性能,但这种方法需要NMS在推断期间选择最佳的正预测。这降低了推理速度,并使性能对NMS的超参数敏感,从而阻止YOLO实现最佳的端到端部署[71]。解决这个问题的一个方法是采用最近引入的端到端DETR架构[4,74,67,28,34,40,61]。例如,RT-DETR [71]提出了一种高效的混合编码器和不确定性最小的查询选择,将DETR推向了实时应用领域。然而,部署DETR固有的复杂性阻碍了其在准确性和速度之间实现最佳平衡的能力。另一行是探索基于CNN的检测器的端到端检测,其通常利用一对一分配策略来抑制冗余预测[5,49,60,73,16]。但是,它们通常会引入额外的推理开销或实现次优性能。

此外,模型架构设计仍然是YOLO的一个基本挑战,它对准确性和速度有重要影响[45,16,65,7]。为了实现更高效和有效的模型架构,研究人员探索了不同的设计策略。针对主干提出了各种主要计算单元以增强特征提取能力,包括DarkNet [43,44,45],CSPNet [2],EfficientRep [27]和ELAN [56,58]等。对于颈部,PAN [35],BiC [27],GD [54]和RepGFPN [65]等,的多尺度特征融合。此外,还研究了模型缩放策略[56,55]和重新参数化[10,27]技术。虽然这些努力已经取得了显着的进步,但仍然缺乏从效率和准确性角度对YOLO中的各种组件进行全面检查。因此,YOLO中仍然存在相当大的计算冗余,导致参数利用效率低下和效率次优。此外,由此产生的约束模型的能力也导致性能较差,留下足够的空间来提高精度。

在这项工作中,我们的目标是解决这些问题,并进一步推进YOLO的精度-速度边界。我们的目标是整个检测管道的后处理和模型架构。为此,我们首先解决后处理中的冗余预测问题,提出了一个一致的双重分配策略,用于无NMS的YOLO,具有双重标签分配和一致的匹配度量。它允许模型在训练过程中享受丰富而和谐的监督,同时在推理过程中无需NMS,从而以高效率实现竞争性能。其次,通过对YOLO中各个组件的全面检查,提出了整体效率-精度驱动的模型架构设计策略。为了提高效率,我们提出了轻量级分类头,空间通道解耦下采样和秩引导块设计,以减少表现出的计算冗余,实现更高效的架构。为了准确性,我们探索了大内核卷积,并提出了有效的部分自注意模块来增强模型能力,利用低成本下的性能改进潜力。

基于这些方法,我们成功地实现了具有不同模型尺度的实时端到端检测器的新家族,即,YOLOv10-N / S / M / B / L / X。对目标检测的标准基准进行了广泛的实验,即,COCO [33]证明,我们的YOLOv 10在各种模型规模的计算精度权衡方面可以显着优于以前的最先进模型。如图1所示,我们的YOLOv 10-S / X在类似性能下分别比RT-DETRR 18/ R101快1.8倍/ 1.3倍。与YOLOv 9-C相比,YOLOv 10-B在性能相同的情况下,延迟减少了46%。此外,YOLOv 10表现出高效的参数利用。我们的YOLOv 10-L / X比YOLOv 8-L / X高0.3 AP和0.5 AP,参数数量分别少1.8倍和2.3倍。与YOLOv 9-M / YOLO-MS相比,YOLOv 10-M实现了相似的AP,参数分别减少了23% / 31%。我们希望我们的工作能够激发该领域的进一步研究和进步。


精读

目标检测的发展

  • YOLO系列:YOLO在性能和效率方面取得了平衡,但存在训练和推断中的问题,如标签分配策略和NMS的使用。
  • DETR系列:DETR是一种端到端的检测器架构,可以有效解决YOLO存在的问题,RT-DETR是DETR的一个变体,可以实现实时应用。
  • 基于CNN的端到端检测器的探索:除了DETR,还有一些基于CNN的检测器采用一对一分配策略来减少冗余预测,但存在性能和效率的问题。

YOLO的挑战以及过去的解决方案

  • 挑战:YOLO在设计模型架构时需要平衡准确性和速度,但存在计算冗余和效率次优的问题。
  • 主干和颈部设计策略:针对主干和颈部设计了多种计算单元和特征融合方法,如DarkNet、CSPNet、PAN等,以增强特征提取能力和多尺度特征融合。

本文方法

  • 提出了一个无 NMS 训练的一致双重分配的YOLO,有助于模型在训练和推理过程中提高效率和性能。
  • 提出了整体效率-精度驱动的模型架构设计策略,包括轻量级分类头、空间通道解耦下采样和大内核卷积等,以提高模型的效率和准确性。
  • 成功实现了具有不同模型尺度的新家族YOLOv10-N/S/M/B/L/X,并在COCO基准上进行了广泛实验,显示出其优于以前先进模型的性能和效率。

2 Related Work—相关工作

翻译

实时目标探测器。实时目标检测的目标是在低延迟下对目标进行分类和定位,这对于现实世界的应用至关重要。在过去的几年里,大量的努力已经指向开发有效的检测器[18,51,43,32,72,69,30,29,39]。特别是YOLO系列[43,44,45,2,19,27,56,20,59]脱颖而出,成为主流。YOLOv 1、YOLOv 2和YOLOv 3标识由三个部分组成的典型检测架构,即,脊柱、颈部和头部[43,44,45]。YOLOv 4 [2]和YOLOv 5 [19]引入了CSPNet [57]设计来取代DarkNet [42],加上数据增强策略,增强的PAN和更多种类的模型尺度等YOLOv 6 [27]分别为颈部和主干提供了BiC和SimCSPSPPF,具有锚辅助训练和自蒸馏策略。YOLOv 7 [56]介绍了用于丰富梯度流路的E-ELAN,并探索了几种可训练的免费赠品袋方法。YOLOv 8 [20]提出了用于有效特征提取和融合的C2f构建块。Gold-YOLO [54]提供了先进的GD机制,以提高多尺度特征融合能力。YOLOv 9 [59]建议GELAN改进架构,PGI增强培训过程。

端到端物体探测器。端到端对象检测已经成为传统管道的范式转变,提供了简化的架构[48]。DETR [4]引入了Transformer架构,并采用匈牙利损失实现一对一匹配预测,从而消除了手工制作的组件和后期处理。从那时起,已经提出了各种DETR变体,以提高其性能和效率[40,61,50,28,34]。Deformable-DETR [74]利用多尺度可变形注意力模块来加速收敛速度。DINO [67]将对比去噪,混合查询选择和两次前瞻方案集成到DETR中。RT-DETR [71]进一步设计了高效的混合编码器,并提出了不确定性最小的查询选择,以提高准确性和延迟。另一种实现端到端对象检测的方法是基于CNN检测器。可学习的NMS [23]和关系网络[25]提供了另一种网络来消除检测器的重复预测。OneNet [49]和DeFCN [60]提出了一对一的匹配策略,以实现使用完全卷积网络的端到端对象检测。FCOSpss [73]引入了一个正样本选择器来选择预测的最佳样本。


精读

Realtime object detectors—实时目标探测器

这一部分就是总结了YOLOv1~v9,可以mark一下,自己论文中引用

End-to-end object detectors—端到端目标检测

  • DETR及变体:采用Transformer架构和Hungarian(匈牙利)损失,消除了传统检测管道的手工制作组件和后处理,改进了性能和效率。
  • 基于CNN的方法:学习的NMS、关系网络、OneNet和DeFCN等提供了消除重复预测的方法,以实现端到端对象检测。
  • 其他技术:如Deformable-DETR利用多尺度可变形注意力模块,DINO结合对比去噪技术等,进一步提高了性能。

3 Methodology—方法 

3.1 Consistent Dual Assignments for NMS-free Training—用于无NMS训练的一致的双重训练

翻译

在训练过程中,YOLO [20,59,27,64]通常利用TAL [14]为每个实例分配多个阳性样本。采用一对多的分配方式,产生丰富的监控信号,有利于优化,获得上级性能。然而,它需要YOLO依赖于NMS后处理,这导致部署的次优推理效率。虽然以前的工作[49,60,73,5]探索了一对一匹配来抑制冗余预测,但它们通常会引入额外的推理开销或产生次优性能。在这项工作中,我们提出了一个无NMS的训练策略的YOLO与双标签分配和一致的匹配度量,实现了高效率和竞争力的性能。

双标签分配

与一对多分配不同,一对一匹配只为每个地面实况分配一个预测,避免了NMS后处理。然而,它导致监督不力,导致次优精度和收敛速度[75]。幸运的是,这种不足可以通过一对多分配来弥补[5]。为了实现这一点,我们引入了YOLO的双标记分配,以联合收割机结合两种策略的优点。具体如图2所示。(a),我们为YOLO加入了另一个一对一的头。它保留了与原始一对多分支相同的结构并采用相同的优化目标,但利用一对一匹配来获得标签分配。在训练过程中,两个头部与模型共同优化,让骨干和颈部享受到一对多分配所提供的丰富监督。在推理过程中,我们丢弃了一对多的头,并利用一对一的头来进行预测。这使YOLO能够用于端到端部署,而不会产生任何额外的推理成本。此外,在一对一匹配中,我们采用了前一个选择,这与匈牙利匹配[4]具有相同的性能,但额外的训练时间更少。

一致的匹配指标

在分配过程中,一对一和一对多方法都利用指标来定量评估预测和实例之间的一致性程度。为了实现两个分支的预测感知匹配,采用统一的匹配度量,即

图片

其中 本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】

推荐阅读
相关标签