当前位置:   article > 正文

Light-YOLOv5 | 一种基于SepViT + BiFPN + SIoU YOLOv5 的轻量级复杂火灾场景检测算法_yolov5 bifpn

yolov5 bifpn

针对现有目标检测算法应用于复杂火灾场景检测精度差、速度慢、部署困难的问题,本文提出一种轻量级的 Light-YOLOv5 火灾检测算法,实现速度和精度的平衡。

首先,将最后一层 Backbone 替换为SepViT Block,增强 Backbone 与全局信息的联系;

其次,设计了 Light-BiFPN Neck 网络,在提高特征提取的同时减轻模型复杂度;

第三,将全局注意力机制(GAM)融合到网络中,使模型更加关注全局维度特征;

最后,使用 Mish 激活函数和 SIoU 损失来提高收敛速度,同时提高准确率。

实验结果表明,Light-YOLOv5 与原算法相比 mAP 提升 3.3%,参数数量减少 27.1%,计算量减少 19.1%,FPS 达到 91.1。即使与最新的 YOLOv7-tiny 相比,Light-YOLOv5 的 mAP 也高出6.8%,可见该算法的有效性。

1、简介

火灾会对公共安全产生重大影响,每年都会造成大量人员伤亡和财产损失。及时发现火灾可以大大减少人员伤亡和损失。

传统的火灾检测方法主要使用烟雾和温度传感器,检测范围和场景有限,响应时间长。随着人工智能和机器学习的发展,基于深度学习的火灾检测得到了广泛的应用。但是,火灾检测场景往往过于复杂多变,在这种情况下,传统火灾检测算法的泛化性和鲁棒性不足,难以部署到低算力平台。针对现有火灾检测的不足,本文提出一种基于 YOLOv5 的轻量级 Light-YOLOv5s 复杂火灾场景检测算法。本文的贡献如下:

  1. 用SepViT Block替换 Backbone 网络的最后几层,加强网络与全局特征信息的连接;

  2. 提出一种 Light-BiFPN 结构,降低计算成本和参数,同时增强多尺度特征的融合,丰富语义特征;

  3. 在 YOLOv5 中加入了全局注意力机制,以增强网络的整体特征提取能力;

  4. 最终验证了 Mish 激活函数和 SIoU 损失函数的有效性。

2、本文方法

2.1、Baseline

YOLOv5 有n、s、m版本等。经过实验对比选择了兼具速度和准确率的 YOLOv5n 作为改进的 baseline,将改进后的模型称为 Light-YOLOv5,其结构如图1所示。

2.2、Separable Vision Transformer

近年来,Vision Transformer 在一系列计算机视觉任务中取得了巨大成功,在主要领域的性能超过了 CNN。然而,这些性能通常是以增加计算复杂性和参数数量为代价的。

Separable Vision Transformer 通过在平衡计算成本的同时保持准确性来解决这一挑战。本文将 Backbone 网络的最后一层替换为 SepViT Block,增强了模型的特征提取能力,优化了网络全局信息的关系。

在 SepViT Block 中,depthwise self-attention 和 pointwise self-attention 减少了计算量,实现了窗口中的局部信息通信和全局信息交互。首先,将分割后的特征图的每个窗口视为其输入通道之一,每个窗口包含自己的信息,然后对每个窗口 Token 及其像素 Token 进行深度自注意力(DWA)。DWA 的操作如下:

其中

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/295022?site
推荐阅读
相关标签