赞
踩
paper:YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection
official implementation:https://github.com/fishandwasabi/yolo-ms
尽管已经取得了很好的性能,但识别不同尺度的物体仍是实时目标检测模型面临的一个基本挑战。这促使我们设计一个鲁棒的编码器架构来学习更具表达能力的多尺度特征表示。
本文没有引入新的训练或优化技术,而是通过学习更丰富的多尺度特征表示来改进实时目标检测模型。这使得我们的方法与之前的工作有很大的不同。具体来说,我们从两个新的角度来思考编码多尺度特征的实时目标检测
受Res2Net(具体介绍见https://blog.csdn.net/ooooocj/article/details/122430069)的启发,本文提出了一种新的具有层次特征融合策略的block,称为MS-Block,以提高实时目标检测模型在保持推理速度的同时提取多尺度特征的能力。
具体结构如图2(c)所示。假设
根据这个公式,我们不将反向瓶颈层连接到
除了building block的设计之外,作者还从宏观的角度深入研究了卷积的使用。以往的实时目标检测模型在不同的stage采用kernel大小相同的卷积,但作者认为这不是提取多尺度语义信息的最佳选择。
在金字塔结构中,从浅层阶段中提取的高分辨率特征通常用于捕获细粒度的语义,并用于检测小目标。相反,来自网络较深阶段的低分辨率特征被用来捕获高级语义,并用于检测大目标。如果我们在所有的stage统一都采用小核卷积,深层的有效感受野(Effective Receptive Field, ERF)是有限的,影响了大目标的检测性能。在每个stage加入大核卷积可以解决这个问题。但是,具有大ERF的大核可以编码更广泛的区域,这增加了在小目标区域之外包含污染信息的概率,并降低了推理速度。
因此,本文提出在不同的阶段利用不同大小的卷积来帮助捕获更丰富的多尺度特征。具体来说,我们在第一个stage采用最小的卷积核,在最后一个stage采用最大的卷积核,在中间的stage中逐步增加卷积核的大小。这个策略可以同时提取fine-grained和coarse-grained语义信息,增强了编码器的多尺度特征表示能力。
如图3所示,encoder中从浅层到深层的
如表1所示,将大核卷积应用于高分辨率特征的计算成本很高。但HKS方案在低分辨率特征上采用了大核卷积,因此与在所有阶段使用大核卷积相比,大大降低了计算成本。实践中我们发现,使用HKS方案的YOLO-MS实现了与仅使用3×3深度卷积的网络几乎相同的推理速度。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。