赞
踩
腾讯发布了新爆款YOLO-World,这是一种高效的开放词汇目标检测方法。
具体来说,作者使用预训练的CLIP文本编码器对输入文本进行编码,并通过引入RepVL-PAN来连接文本特征和图像特征以获得更好的视觉-语义表示。这种方法在V100上实现了35.4 AP和52.0 FPS,速度提升了20倍,在精度和速度方面都刷新多个SOTA。
Overall Architecture of YOLO-World
除YOLO-World以外,还有更多令人惊叹的YOLO改进方法,对于YOLO主系列的优化工作我们也一直没有停止。作为目标检测领域的主流方法之一,YOLO简洁高效的设计和不断优化的性能让其广受欢迎,它不仅检测准确率高、计算速度快,同时模型简单,改进比较容易。因此,针对YOLO的改进依旧是热门,是我们做创新发论文的好方向。
为方便同学们获取论文灵感,本文整理了16种改进方法,包括YOLOv1-v9主系列和最新的YOLO变体,开源代码已附上。
论文和开源代码需要的同学看文末
方法:论文提出了一种新的OWOD检测器YOLOOC,用于改进开放集目标检测模型,并构建了一个新的基准测试集。同时,将YOLOv5扩展为开放世界目标检测模型,并验证了所提出模型和模块的有效性。
创新点:
作者提出了一个新的OWOD基准,其中只在推理阶段遇到新的类别,并可能逐渐将其添加到训练标签集中,这对于使OWOD成为现实世界中的问题至关重要。
作者提出了一种新的OWOD检测器YOLOOC,基于YOLO架构,但适用于开放类别设置。引入了标签平滑来防止检测器过于自信地将新类别映射到已知类别。
方法:论文提出一种改进的信息融合机制Gather-and-Distribute (GD) ,通过全局融合多层特征并将全局信息注入高层,以提高YOLO系列模型的信息融合能力和检测性能。通过引入MAE-style预训练方法,进一步提高模型的准确性。
创新点:
Gather-and-Distribute机制(GD机制):通过使用卷积和自注意力操作,实现了一种先进的GD机制,通过这种机制,可以有效地融合多尺度特征,并在所有模型尺度上实现延迟和准确性之间的理想平衡。GD机制通过收集和融合来自所有层级的信息,然后将其分配给不同的层级,从而增强了neck部分的部分信息融合能力,而不会显著增加延迟。
MAE-style预训练:首次在YOLO系列模型中引入MAE-style预训练方法,通过在ImageNet 1K上对backbone进行预训练,显著提高了模型的收敛速度和准确性。通过使用MAE方法,Gold-YOLO-N在COCO val2017数据集上实现了39.9%的AP,并在T4 GPU上实现了1030 FPS的速度,性能优于先前的SOTA模型YOLOv6-3.0-N。
方法:论文提供一种高效且性能良好的实时物体检测器。研究通过对不同尺度物体的检测性能影响进行一系列调查,作者提出了一种新的策略来增强实时物体检测器的多尺度特征表示能力。
创新点:
HKS策略:在编码器的不同阶段利用不同大小的卷积核,以捕捉更丰富的多尺度特征。具体来说,第一阶段使用最小的卷积核,最后一阶段使用最大的卷积核。中间阶段的卷积核大小逐渐增加,与特征分辨率的增加保持一致。这种策略可以提取细粒度和粗粒度的语义信息,增强编码器的多尺度特征表示能力。
MS-Block:通过减少多级特征的通道深度,实现速度和准确性之间的更好平衡。作者提出了三种YOLO-MS的变体,分别是YOLO-MS-XS、YOLO-MS-S和YOLO-MS。
方法:PlainNet在深层中失去了很多目标检测所需的重要信息,而ResNet、CSPNet和GELAN能够保留更多重要信息并获得更高的准确性。为了解决上述问题,作者设计了基于可逆网络的方法。通过可视化实验,作者进一步验证了信息瓶颈问题,并展示了提出的PGI如何使用可靠的梯度来找到数据和目标之间的正确相关性。
创新点:
作者的首要创新贡献是提出了可编程梯度信息(PGI)的概念,通过辅助可逆分支生成可靠的梯度,使深度模型能够使用更准确的信息建立数据和目标之间的正确关联。
作者的第二个重要创新贡献是设计了通用ELAN(GELAN),它只使用常规卷积来实现比基于最先进技术的深度分离卷积设计更高的参数使用率,同时显示出轻量级、快速和准确的优势。
关注下方《学姐带你玩AI》
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。