基于YOLOv7算法的高精度实时老鼠目标检测系统（PyTorch+Pyside6+YOLOv7）_最新目标检测算法

作者：IT小白 | 2024-04-07 16:24:21

踩

YOLOv7算法原理介绍

2022年7月YOLOv7被提出与发布，论文发表在2023的计算机视觉顶级会议CVPR上，在YOLOv3和YOLOv4的官网上均挂上了YOLOv7的链接和说明，这说明YOLOv7已得到了大佬的认可。官方版的YOLOv7相同体量下比YOLOv5精度更高，速度快120%（FPS），比 YOLOX 快180%（FPS），比 Dual-Swin-T 快1200%（FPS），比 ConvNext 快550%（FPS），比 SWIN-L快500%（FPS）。在5FPS到160FPS的范围内，无论是速度或是精度，YOLOv7都超过了目前已知的检测器，并且在GPU V100上进行测试，精度为56.8% AP的模型可达到30 FPS（batch=1）以上的检测速率，与此同时，这是目前唯一一款在如此高精度下仍能超过30FPS的检测器。
论文地址：https://arxiv.org/pdf/2207.02696.pdf
源码地址：https://github.com/WongKinYiu/yolov7
在这里插入图片描述

YOLOv7模型结构

YOLOv7模型的整体结构如下，与YOLOv5相似，整体可分为Input、Backbone、Neck、Head以及Prediction模块。
在这里插入图片描述

本节介绍YOLOv7相关模型里的新的模块：

（1）ReOrg：位于yolov7-w6.yaml文件中
这个模块其实是对输入的信息进行切片操作，与YOLOv2算法的PassThrough层以及YOLOv5（v5.0版本）的Focus操作类似，对输入图层尽可能保持原信息并进行下采样。（这部分代码具体位于models/common.py文件的48行）
（2）多路卷积模块
这部分主要还是大量复用1×1的point Conv和3×3的standard Conv，每个Conv 的输出不仅作为下一个Conv的输入，还会和所有其他的Conv输出进行Concat相连操作，类似于DenseNet里面的操作
（3）SPPCSPC模块
这是一种利用金字塔池化操作和CSP结构得到的模块，依旧包含了大量支路；总的输入会被分成三段进入不同的分支，最中间的分支其实就是金字塔池化操作，左侧分支类似于 depthwise Conv，但是请注意中间的3×3卷积并未进行分组，依旧是标准卷积，右侧则为一个point onv，最后将所有分支输出的信息流进行 concat向量（这部分代码具体位于models/common.py文件的262行）。
（4）RepConv模块
RepVGG是一种基于VGG网络设计的多分支模型，在训练过程中可以通过多分支提升性能，推理可以通过结构重新参数化转换为具有3×3卷积和ReLU的连续直筒型VGG类网络，实现推理速度的加快（这部分代码具体位于models/common.py文件的463行）。
（5）E-ELAN模块
这部分是对多路卷积模块的补充，在更大更深的模型才会用到（yolov7-e6e模型中）。在大多数关于设计高效网络的论文中，主要考虑的因素是参数量、计算量和计算密度。但从内存访存的角度出发出发，还可以分析输入 / 输出信道比、架构的分支数和元素级操作对网络推理速度的影响（shufflenet 论文提出)。在执行模型缩放时还需考虑激活函数，即更多地考虑卷积层输出张量中的元素数量。在大规模 ELAN 中，无论梯度路径长度和计算模块数量如何，都达到了稳定的状态。但如果更多计算模块被无限地堆叠，这种稳定状态可能会被破坏，参数利用率也会降低。作者进一步提出E-ELAN，采用 expand、shuffle、merge cardinality 结构，实现在不破坏原始梯度路径的情况下，提高网络的学习能力（具体在 cfg/training/yolov7-e6e.yaml可看到拆散成单独算子的结构配置）

YOLOv7损失函数

YOLOv7整体和YOLOv5保持一致，分为坐标损失、目标置信度损失（GT就是训练阶段的普通IoU）和分类损失三部分。其中目标置信度损失和分类损失采用BCEWithLogitsLoss（带log的二值交叉熵损失），坐标损失采用CIoU损失。详细参见utils/loss.py 里面的 ComputeLossOTA函数。
IoU_Loss：主要考虑检测框和目标框重叠面积。
GIoU_Loss：在IoU的基础上，解决边界框不重合时的问题。
DIoU_Loss：在IoU和GIoU的基础上，考虑边界框中心点距离的信息。
CIoU_Loss：在DIoU的基础上，考虑边界框宽高比的尺度信息。

系统环境搭建

（1）打开Anaconda Prompt（如果电脑没有anaconda软件，需下载安装）
（2）创建yolo7的conda环境（conda create -n yolo7 python=3.8），并激活yolo7环境（conda activate yolo7）
（3）进入到项目目录（本文演示目录为：E:\Pyside6_yolov7\yolov7）
（4）安装环境依赖包：pip install -r requirements.txt
（5）在环境中输入：python base_camera,py 来打开系统界面
在这里插入图片描述

系统界面及功能展示

在本博文中将展示设计的软件界面，整体界面设计简洁大方，提供了直观的操作体验，主要功能包括以下几个方面：
模型权重的导入与初始化
检测置信分与后处理IoU阈值的调节
已检测目标的信息展示
检测用时的统计与展示
图像的导入、检测、结果可视化展示及导出
视频的导入、检测、结果可视化展示及导出
文件夹下图像的批量导入、检测、结果可视化展示及导出
摄像头的导入、检测、结果可视化展示及导出
软件的初始界面示例如下图展示：
在这里插入图片描述

模型权重选择与初始化

用户可以通过点击“模型选择”按钮来上传已训练好的模型权重，支持的权重格式包括.pt以及.onnx等。在上传了模型权重后，用户可以单击“模型初始化”按钮，实现对已选择模型权重的初始化信息配置。此外，用户还可以通过调整各种参数，如置信度阈值（Confidence）、检测后处理阈值（IoU）等，来优化检测结果的准确性与速度。在Confidence或IoU下方的输入框中改变值即可同步改变滑动条的进度，同时改变滑动条的进度值也可同步改变输入框的值；Confidence或IOU值的改变将同步到模型里的配置来改变检测置信度阈值与IOU阈值。在完成所有设置后，用户可以轻松地启动检测过程，并查看检测结果的可视化展示。在完成相应的操作后，系统的状态栏（系统右下方）也会显示对应操作的返回结果。
在这里插入图片描述

图像的选择、检测、展示与导出

用户可以通过点击“图像选择”按钮，轻松上传单张图片进行检测与识别。接下来，只需单击“检测”按钮（系统右下角的按钮，详见上面图例），系统便会自动完成目标检测任务。在检测过程中，系统将在“检测用时”栏显示完成检测的推理时间，并在“目标数量”栏显示已检测到的目标数量。用户还可以通过下拉框选择已检测目标，并查看相应的位置信息（即左上角x坐标xmin、左上角y坐标ymin、左下角x坐标xmax以及左下角y坐标ymax）标签值的变化。在检测完成后，系统的右方会显示输入图像的检测结果。
如果用户希望将检测结果保存的话，可以点击“图像结果导出”按钮，然后在弹出的对话框中输入保存文件名及后缀（如1.jpg），即可实现检测结果图像的保存。
当用户点击结束按钮（系统右下角的按钮，详见上面图例）时，系统将退出当前检测任务并刷新界面，清空所有输出信息。此外，用户还可以继续点击“图像选择”或“视频选择”按钮来上传图像或视频进行相应的检测与识别。总之，这个系统为用户提供了一个简单易用的界面，让用户可以快速地完成图像检测任务，并方便地查看与导出检测结果。具体的操作示例如下图所示。
在这里插入图片描述

视频的选择、检测、展示与导出

用户可以点击“视频选择”按钮来上传视频进行检测与识别。接下来，用户只需单击“检测”按钮（系统右下角的按钮，详见上面图例），系统便会自动完成视频目标检测任务。在检测过程中，系统将在“检测用时”栏显示单帧目标检测的推理时间，并在“目标数量”栏显示单帧检测到的目标数量，同时本系统采取进度条来直观地显示当前检测进度。用户还可以通过下拉框选择已检测目标，并查看相应的位置信息（即左上角x坐标xmin、左上角y坐标ymin、左下角x坐标xmax以及左下角y坐标ymax）标签值的变化。在检测完成后，系统的右方会显示输入视频的检测结果。
为了方便用户暂停观察视频检测结果，系统提供了“暂停”按钮（系统右下角的按钮，详见上面图例）。用户点击后系统将会暂停视频检测，此时用户可以通过下拉目标框选择已检测目标的坐标位置信息，然后再点击“继续”按钮（系统右下角的按钮，详见上面图例），即可实现输入视频的继续检测。
如果用户希望将视频检测结果保存，可以点击“视频结果导出”按钮，然后在弹出的对话框中输入保存文件名及后缀（如2.mp4），即可实现检测结果视频的保存。当用户点击“结束”按钮时（系统右下角的按钮，详见上面图例），系统将退出当前视频检测任务并刷新界面，清空所有输出信息。
在这里插入图片描述

文件夹的批量图像导入、检测、展示与导出

用户可以通过点击“文件夹”按钮，轻松完成批量图片的上传。接下来，只需单击“检测”按钮（系统右下角的按钮，详见上面图例），系统便会自动完成目标检测任务对所有文件夹下的图片进行检测。在检测过程中，系统在“检测用时”栏显示完成检测的推理时间，并在“目标数量”栏显示已检测到的目标数量，同时本系统采取进度条来直观地显示当前检测进度。用户还可以通过下拉框选择已检测目标，并查看相应的位置信息（即左上角x坐标xmin、左上角y坐标ymin、左下角x坐标xmax以及左下角y坐标ymax）标签值的变化。在检测完成后，系统的右方会显示输入图像的检测结果。
如果用户希望将检测结果批量保存的话，可以点击“文件夹导出”按钮，然后在弹出的对话框中选择输出文件夹，即可实现批量检测结果图像的保存。当用户点击结束按钮（系统右下角的按钮，详见上面图例）时，系统将退出当前检测任务并刷新界面，清空所有输出信息。具体的操作示例如下图所示。
在这里插入图片描述

摄像头的检测、展示与导出

用户可以通过点击“摄像头打开”按钮来启动摄像头设备（默认开始本机设备的第一个摄像头）。接下来，用户只需单击“检测”按钮（系统右下角的按钮，详见上面图例），系统便会自动完成摄像头目标检测任务。在检测过程中，系统将在“检测用时”栏显示消耗的时间，并在“目标数量”栏显示已检测到的目标数量。用户还可以通过下拉框选择已检测目标，并查看相应的位置信息（即左上角x坐标xmin、左上角y坐标ymin、左下角x坐标xmax以及左下角y坐标ymax）标签值的变化。
如果用户希望将摄像头检测结果保存，可以点击“摄像头导出”按钮，然后在弹出的对话框中输入保存文件名及后缀（如22.mp4），即可实现摄像头检测结果视频的保存。当用户点击“结束”按钮时（系统右下角的按钮，详见上面图例），系统将退出当前摄像头检测任务并刷新界面，清空所有输出信息。总之，这个系统为用户提供了一个简单易用的界面，让他们可以快速地完成摄像头检测任务，并方便地查看与导出检测结果。

数据集介绍

本系统使用的老鼠数据集手动标注了老鼠这个类别，数据集总计1100张图片。该数据集中类别都有大量的旋转和不同的光照条件，有助于训练出更加鲁棒的检测模型。本文实验的老鼠检测识别数据集包含训练集887张图片，验证集213张图片。
关键代码解析
本系统采用PyTorch来实现目标检测算法，基于YOLOv7算法进行目标检测。在训练阶段，我们使用了预训练模型作为初始模型进行训练，然后通过多次迭代优化网络参数，以达到更好的检测性能。在训练过程中，我们采用了学习率衰减和数据增强等技术，以增强模型的泛化能力和鲁棒性。为了更好地评估模型的性能，我们在训练集和验证集上进行了大量的实验。通过调整超参数，如学习率、批量大小等，我们最终找到了一个适合本任务的参数设置。同时，为了提高模型的泛化能力，我们还采用了数据增强技术，如随机旋转、缩放、裁剪和颜色变换等，以扩充数据集，同时降低过拟合风险。
在测试阶段，我们使用了训练好的模型来对新的图片和视频进行检测。通过设置阈值，将置信度低于阈值的检测框过滤掉，最终得到检测结果。同时，我们还可以将检测结果保存为图片或视频格式，以便进行后续分析和应用。本系统基于YOLOv7算法，使用PyTorch实现。代码中用到的主要库包括PyTorch、NumPy、OpenCV、Pyside6等。本系统实现的一些关键代码如下图所示。

在这里插入图片描述

Pyside6界面设计

PySide6是一款免费的Python跨平台GUI库，它是Python的绑定库，用于开发跨平台GUI应用程序。PySide6是基于Qt5和PyQt5库的下一代Python跨平台GUI库，它为开发人员提供了一个强大的工具集，以构建跨平台的用户界面。PySide6的主要目标是提高性能，简化开发人员的工作，并提供更好的用户体验。PySide6的主要特点包括：
跨平台支持：PySide6支持Windows、MacOS和Linux等多个平台，可以轻松地开发跨平台的GUI应用程序。
高性能：PySide6采用了Qt5和PyQt5库的最新技术，为开发人员提供了更高的性能。
简单易用：PySide6提供了丰富的API和工具，使开发人员能够快速地开发GUI应用程序，而无需过多的编码。
可扩展性：PySide6支持多种GUI组件和控件，可以轻松地扩展和定制应用程序的用户界面。
社区支持：PySide6有一个活跃的社区，提供了丰富的文档和示例代码，帮助开发人员快速上手。

总的来说，PySide6是一款强大的Python跨平台GUI库，它为开发人员提供了一个简单易用的工具集，以构建跨平台的用户界面。PySide6的性能、可扩展性和社区支持使其成为一款非常适合开发人员使用的库。

实验结果与分析

在实验结果与分析部分，我们使用精度和召回率等指标来评估模型的性能，还通过损失曲线和PR曲线来分析训练过程。在训练阶段，我们使用了YOLOv7算法对数据集进行训练，总计训练了300个epochs。从下图可以看出，随着训练次数的增加，模型的训练损失和验证损失都逐渐降低，说明模型不断地学习到更加精准的特征。在训练结束后，我们使用模型在数据集的验证集上进行了评估，得到了以下结果。在这里插入图片描述

下图展示了我们训练的YOLOv7模型在验证集上的PR曲线，从图中可以看出，模型取得了较高的召回率和精确率，整体表现良好。
在这里插入图片描述

综上，本博文训练得到的YOLOv7模型在数据集上表现良好，具有较高的检测精度和鲁棒性，可以在实际场景中应用。另外本博主对整个系统进行了详细测试，最终开发出一版流畅的高精度目标检测系统界面，就是本博文演示部分的展示，完整的UI界面、测试图片视频、代码文件等均已打包上传，感兴趣的朋友可以关注我私信获取下载链接。另外本博文的PDF与更多的目标检测识别系统请关注笔者的微信公众号 BestSongC (目前已发布基于YOLOv5算法和YOLOv8算法开发的系统界面，以及目标检测算法改进系列)来获取。

其他基于深度学习的目标检测系统如西红柿、猫狗、山羊、野生目标、烟头、二维码、头盔、交警、野生动物、野外烟雾、人体摔倒识别、红外行人、家禽猪、苹果、推土机、蜜蜂、打电话、鸽子、足球、奶牛、人脸口罩、安全背心、烟雾检测系统等有需要的朋友关注我，从博主其他视频中获取下载链接。

完整项目目录如下所示：
在这里插入图片描述

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/379492