赞
踩
深度学习论文: YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection
YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection
PDF: https://arxiv.org/pdf/2308.05480.pdf
PyTorch代码: https://github.com/shanglianlm0525/CvPytorch
PyTorch代码: https://github.com/shanglianlm0525/PyTorch-Networks
基于一系列对不同Kernel-Size卷积如何影响不同尺度上目标检测性能的研究,提出一个名为YOLO-MS的网络架构。作者在MS COCO数据集上从头开始训练YOLO-MS,而不依赖于任何其他大规模数据集,如ImageNet,或预训练权重。YOLO-MS在使用相同数量的参数和FLOPs的情况下,优于最近的最先进的实时目标检测器,包括YOLO-v7和RTMDet。
YOLO-MS从两个新的角度考虑为实时目标检测编码多尺度特征:
CSP块是一个基于阶段级梯度路径的网络,平衡了梯度组合和计算成本。广泛的应用于YOLO系列。除了YOLOv4和YOLOv5中的原始版本,同时衍生出了几种变体,Scaled YOLOv4中的CSPVoVNet,YOLOv7中的ELAN,以及RTMDet中提出的大Kernel单元。基于Res2Net 和 大Kernel卷积,作者希望将来自不同层次的特征融合以增强多尺度表示,进一步提升目标检测性能,但是将大Kernel卷积纳入Res2Net,会引入不必要的计算开销,因此作者提出用 Inverted Bottleneck Block替代Res2Net中标准的3 × 3卷积,以享受大Kernel卷积的好处。
基于前面的分析,作者提出了一个带有分层特征融合策略的全新Block,称为MS-Block,以增强实时目标检测器在提取多尺度特征时的能力,同时保持快速的推理速度。MS-Block的具体结构如上图©。
从宏观角度,在这项工作中,作者建议在不同阶段中采用异构卷积,以帮助捕获更丰富的多尺度特征。具体而言,在编码器的第一个阶段中,采用最小Kernel卷积,而最大Kernel卷积则位于最后一个阶段。随后,逐步增加中间阶段的Kernel-Size,使其与特征分辨率的增加保持一致。这种策略允许提取细粒度和粗粒度的语义信息,增强了编码器的多尺度特征表示能力。
从实验可以看出,透出的HKS协议能够在深层中扩大感受野,而不会对浅层产生任何其他影响。此外,HKS不仅有助于编码更丰富的多尺度特征,还确保了高效的推理。
YOLO-MS模型的Backbone由4个阶段组成,每个阶段后面跟随1个步长为2的3 × 3卷积进行下采样。在第3个阶段后,添加了1个SPP块,与RTMDet中一样,使用PAFPN作为Neck来构建特征金字塔。它融合了从Backbone不同阶段提取的多尺度特征。Neck中使用的基本构建块也是MS-Block,在其中使用3 × 3深度可分离卷积进行快速推理。
不同尺度的YOLO-MS变体如下:
Grad-CAM可视化:
与其他YOLO检测器集成:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。