赞
踩
在智慧城市中,有效的交通拥堵管理取决于熟练的行人和车辆检测。无人机 (UAV) 提供了一种具有移动性、成本效益和宽视野的解决方案,然而,优化识别模型对于克服小型和遮挡物体带来的挑战至关重要。为了解决这些问题,我们利用YOLOv8s模型和Swin Transformer模块,并引入了PVswin-YOLOv8s模型用于基于无人机的行人和车辆检测。
首先,YOLOv8s的骨干网络通过替换最后一个C2f层进行全局特征提取,从而引入Swin Transformer模型,用于极小目标检测。
其次,为了解决漏检的挑战,选择将 CBAM 集成到 YOLOv8s 的颈部。这种包含涉及利用通道和空间注意力模块,因为它们可以有效地提取网络内的特征信息流。
最后,为了避免目标丢失,采用Soft-NMS来提高遮挡情况下行人和车辆检测的准确性(多个目标重叠)。Soft-NMS提高了性能,并很好地管理了重叠的边界框。所提出的网络减少了被忽视的小目标的比例,并增强了模型检测性能。
通过与不同YOLO版本(例如YOLOv3-tiny、YOLOv5、YOLOv6和YOLOv7)、YOLOv8变体(YOLOv8n、YOLOv8s、YOLOv8m和YOLOv8l)以及经典目标检测器(Faster-RCNN、Cascade R-CNN、RetinaNet和CenterNet)的性能比较,验证了所提出的PVswin-YOLOv8s模型的优越性。实验结果证实了PVswin-YOLOv8s模型的效率,在VisDrone2019数据集上,与基线YOLOv8s相比,平均检测精度(mAP)提高了4.8%。
在无人机的车辆和行人检测领域,集成一级和两级目标检测 (OD) 算法的趋势越来越大。但他同时存在较大的局限性,比如它们在遮挡、小物体检测和遗漏识别方面的挑战。
在自然环境中,行人和车辆呈现出多尺度结构,无人机视角通常会在背景和被遮挡的特征下捕捉小的、低对比度的元素。
基于 CNN 的检测器通常可以分为两大类,如下所示。
one-stage:Fully Convolutional One-Stage (FCOS) , DEtection TRansformer (DETR) , EfficientDet , Single Shot Multibox Detector (SSD) , and You Only Look Once (YOLO1-8) ;
two-stage:空间金字塔池化网络(SPPNet)、centerNet 、R-CNN family和特征金字塔网络(FPN)
(通过使用大尺寸卷积核来减小输入张量通道维度来实现的)
YOLOv8s是一个较小的模型,提供较少的参数数量和较少的内存使用,这对于无人机受限的计算资源至关重要。
图二a所示 Swin Transformer 模块替换了 YOLOv8s 主干网中的最后一个 C2f 层。这种集成在低分辨率特征图(20 × 20)上运行,从而减少了计算负载和内存要求。它通过利用 Swin Transformer 捕获长距离依赖性和多样化本地信息的能力,解决了 YOLOv8s 在捕获全局和上下文信息方面的限制。
Swin Transformer 模块采用默认的 4 × 4 像素的补丁大小进行初始补丁嵌入,然后通过移动窗口机制动态扩展,从而有效地增加感受野大小,而不会增加计算复杂性。这种集成确保了该模型保持了 YOLOv8s 的速度和精度,同时增强了其在复杂无人机图像中检测物体的能力。
然后,将CBAM引入YOLOv8的颈部网络,利用其双通道特性改善特征信息。图二b所示。
此外,我们用Soft-NMS来代替NMS,以更好地检测重叠物体
在YOLOv8模型中,NMS用于优化行人和车辆检测的候选框,阈值平衡影响无人机场景中的精度。为了解决遮挡问题,Soft-NMS 集成提供了一种适应性强的方法,可以最大限度地提高检测效果。这种综合方法旨在最大限度地检测行人和车辆的数量和位置信息。
使用patch division module(斑块分割模块),输入图像被分割成离散的、不重叠的部分。每个patch都被视为一个“token”,其特征是通过连接其像素的原始值来创建的。本调查中使用的 4 × 4 个补丁大小时,每个patch的特征尺寸为 4 × 4 × 3 = 48。
然后,如图三a所示,线性嵌入层将原始值特征投影到任意维度,由设计元素 C 表示。图三b描述了这种方法。为了构建 Swin 变压器,在标准变压器模块中安装了一个基于“移位窗口”(SW-MSA) 和“窗口”(W-MSA) 的改进型多头自注意 (MSA) 模块,以代替普通的 MSA 模块。其他层保持不变。该模块被两层多层感知器 (MLP) 取代,整流线性单元 (ReLU) 之间具有非线性性。在每个 MSA 模块和 MLP 层之前和之后,应用了 LayerNorm、归一化层和残差连接(逐步下采样特征图,在多个尺度上捕捉特征,并减少在深层的计算负担)。
基于将三维特征图中的注意力机制分解为通道注意力和空间注意力,图二b显示了前馈卷积神经网络注意力模块,即卷积块注意力模块(CBAM )。
空间注意力模块应包含在通道注意力模块之后,以达到最佳效果。这种轻量级模块可以轻松实现到任何 CNN 架构中,以进行全面培训。
通道注意力需要在每个通道内应用最大池化和平均池化等方法,将特征图的空间维度压缩为一维向量。
通道注意力(Channel Attention):通道注意力模块通过自适应地调整特征图中不同通道的重要性来提升特征表示能力。它使用全局平均池化和全局最大池化生成通道权重,并通过一个共享的MLP(多层感知机)来计算通道注意力权重。
空间注意力(Spatial Attention):空间注意力模块通过关注特征图的不同空间位置来提高特征表示的空间位置能力。它首先对通道维度进行池化(全局平均池化和全局最大池化),然后通过一个卷积层生成空间注意力图,从而强调重要的空间位置。
模块结构:CBAM将通道注意力和空间注意力模块串联使用。首先应用通道注意力模块对输入特征图进行加权调整,然后应用空间注意力模块进一步强化特定的空间区域。
通过引入CBAM,卷积神经网络能够更有效地捕捉关键特征,提高分类、检测等任务的性能。
Soft-NMS 对传统的 NMS 方法进行了改进,通过软性地处理重叠框来提高目标检测的性能。具体来说,它通过将重叠框的得分进行衰减,而不是直接删除重叠框,从而更好地处理目标之间的重叠情况。
提高准确率:通过保留部分重叠框,Soft-NMS 可以减少因为过度抑制导致的漏检问题。
处理密集目标:在目标密集的场景下,Soft-NMS 能够更好地处理目标之间的重叠问题,提升检测性能。
数据集采用VisDrone2019
VisDrone2019 数据集是一个用于无人机视觉任务的大规模数据集。它包含了丰富的无人机拍摄图像,覆盖城市道路、停车场、校园等多种场景。主要用于目标检测、跟踪和场景理解等研究。数据集包括丰富的标注,包括边界框(bounding boxes)、目标类别等信息。标注数据涵盖了车辆、行人、骑行者等不同类别的目标。它的目标是推动无人机在各种环境中的视觉感知能力。
数据集下载:chaizwj/yolov8-tricks: 目标检测,采用yolov8作为基准模型,数据集采用VisDrone2019,带有自己的改进策略 (github.com)
通过检测 精度 (P)、召回率 (R)、F1 评分、mAP0.5 和 mAP0.5:0.95 以及其他措施来评估我们提出的 PVswin-YOLOv8s 模型的检测能力。
通过与不同YOLO版本(例如YOLOv3-tiny、YOLOv5、YOLOv6和YOLOv7)、YOLOv8变体(YOLOv8n、YOLOv8s、YOLOv8m和YOLOv8l)以及经典目标检测器(Faster-RCNN、Cascade R-CNN、RetinaNet和CenterNet)的性能比较,验证了所提出的PVswin-YOLOv8s模型的优越性。
同时进行消融实验证明了创新点给模型性能带来的提升
Visdrone2019-test数据集上检测结果的比较可视化:(a)真值标注,(b)YOLOv5的预测,(c)YOLOv8s的预测,(d)增强型PVswin-YOLOv8s模型的预测,以及(e)综合检测性能图表。此处 Count 显示对象的数量。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。