赞
踩
原文链接https://arxiv.org/abs/2207.02696
Github地址:https://github.com/WongKinYiu/yolov7
Abstract
YOLOv7 surpasses all known object detectors in both speed and accuracy in the range from 5 FPS to 160 FPS and has the highest accuracy 56.8% AP among all known real-time object detectors with 30 FPS or higher on GPU V100. YOLOv7-E6 object detector (56 FPS V100, 55.9%AP) outperforms both transformer-based detector SWINL Cascade-Mask R-CNN (9.2 FPS A100, 53.9% AP) by509% in speed and 2% in accuracy, and convolutionalbased detector ConvNeXt-XL Cascade-Mask R-CNN (8.6FPS A100, 55.2% AP) by 551% in speed and 0.7% AP in accuracy, as well as YOLOv7 outperforms: YOLOR,YOLOX, Scaled-YOLOv4, YOLOv5, DETR, Deformable DETR, DINO-5scale-R50, ViT-Adapter-B and many other object detectors in speed and accuracy. Moreover, we train YOLOv7 only on MS COCO dataset from scratch without using any other datasets or pre-trained weights. Source code is released in https://github.com/WongKinYiu/yolov7.
YOLOv7在5帧/秒到160帧/秒范围内的速度和精度都超过了所有已知的目标检测器,在GPU V100所有已知的30帧/秒以上的实时目标检测器中,YOLOv7的准确率最高,达到56.8%AP。YOLOv e6对象检测器(56 FPS V100,55.9%AP)比基于变压器的检测器SWINL级联掩模R-CNN(9.2 FPSA100,53.9%AP)速度509%,精度2%,和基于卷积的检测器convext-xl级联掩模R-CNN(86 FPA100,55.2%AP)速度551%,精度0.7%AP,以及YOLOv7在速度和精度方面优于:YOLOR,YOLO scale-yolov4,YOLOv5,DETR,变形DETR,DINO-5scale-R50,vita-adapter-b和许多其他对象测器。此外,我们只在MS COCO数据集上从无开始训练YOLOv7,而不使用任何其他数据集或先训练的权重。源代码发布在https://github.com/WongKinYiu/yolov7.
辅助头部的辅助损失在辅助头部的辅助损失实验中,我们比较了一般的引线头部独立标签分配方法和辅助头部方法,并对两种提出的引线引导标签分配方法进行了比较。 我们在表6中展示了比较结果。 从表6中列出的结果可以清楚地看出,任何增加助手损耗的模型都可以显著提高整体性能。 此外,我们提出的引导标签分配策略在AP、AP50和AP75中比一般的独立标签分配策略获得更好的性能。 对于我们提出的粗的辅助和精的铅标签分配策略,在所有情况下都能得到最好的结果。 图8展示了在辅助头和引导头用不同方法预测的物化图。 从图8中我们发现,如果辅助头学习引导的软标签,确实可以帮助引导头从一致的目标中提取残差信息。
在表7中,我们进一步分析了所提出的粗到细引导标签分配方法对辅助头部解码器的影响。 也就是说,我们比较了引入上界约束和不引入上界约束的结果。 从表中的数字来看,用距离物体中心的距离来约束物体的上限的方法可以达到更好的效果。
由于提出的YOLOv7使用多个金字塔共同预测目标检测结果,我们可以直接将辅助头部连接到中间层的金字塔进行训练。 这种类型的训练可以弥补在下一级金字塔预测中可能丢失的信息。 基于上述原因,我们在提出的E-ELAN架构中设计了部分辅助头。 我们的方法是在合并基数之前,在某一特征映射集后连接辅助头,这种连接可以使新生成的特征映射集的权值不被辅助损失直接更新。 我们的设计允许每个铅头金字塔仍然从不同大小的物体中获取信息。 表8显示了两种不同方法的结果。 粗至精导法和部分粗至精导法。 显然,部分粗转细导法具有更好的辅助效果。
6. Conclusions
本文提出了一种新的实时目标检测器体系结构和相应的模型缩放方法。 此外,我们发现目标检测方法的发展过程产生了新的研究课题。 在研究过程中,我们发现了重新参数化模块的替换问题和动态标签分配的分配问题。 为了解决这一问题,我们提出了可训练的免费袋方法来提高目标检测的准确性。 在此基础上,我们开发了YOLOv7系列目标检测系统,得到了最先进的目标检测结果。
7. Acknowledgements
8. More comparison
在5帧/秒到160帧/秒的范围内,onyolov7在速度和精度上超过了所有已知的物体检测器,在GPU V100上所有已知的30FPS或更高的实时物体检测器中具有最高的56.8% AP test-dev / 56.8% APmin-val。 YOLOv7- e6对象检测器(56 FPS V100, 55.9% AP)在速度和精度上都比基于变压器的检测器sin - l级联掩码R-CNN (9.2 FPSA100, 53.9% AP)的509%和2%,以及卷积检测器convext - xl CascadeMask R-CNN (8.6 FPSA100, 55.2% AP)的551%的速度和0.7% AP的精度,以及YOLOv7在速度和精度上优于:YOLOR, YOLOX, Scaled-YOLOv4, YOLOv5, DETR,变形DETR, DINO-5scale-R50, vita - adapter -b和许多其他对象检测器。 此外,我们只在MS COCO数据集上从头开始训练YOLOv7,而不使用任何其他数据集或预先训练的权重。
YOLOv7-E6E (56.8%AP)实时模型的最大精度比目前COCO数据集上最精确的美团/YOLOv6-s模型(43.1% AP)高出13.7% AP。 在COCO数据集和批量=32的V100 GPU上,我们的YOLOv7-tiny (35.2% AP, 0.4ms)模型比美团/YOLOv6-n (35.0% AP, 0.5 ms)快25%,高0.2% AP。
References
…
完结撒花
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。