赞
踩
结构
YOLO检测网络包括24个卷积层和2个全连接层
其中,卷积层用来提取图像特征,全连接层用来预测图像位置和类别概率值。
训练:
batchsize=64 momentum=0.9 decay=0.0005 前期:learning rate= 10−3 to 10−2.后期10−2训练75个epoch,然后用10−3训练30个epoch,最后用10−4训练30个epoch。dropout layer with rate =0.5 数据增强:20%的随机缩放和平移,随机调整曝光和饱和度的图像在HSV颜色空间的一个因子1.5
优点:
缺点:
数据集:ImageNet的9000多个类
yolov2主要集中在提高召回率和定位,同时保持分类准确性。
Yolov2训练策略:
在YOLO中的所有卷积层上添加批量归一化。删去全连接层,并使用锚框来预测边界框。k-means生成边界框,使用维度聚类直接预测边界框中心位置。添加一个passthrough层,使26×26×512的特征图得到1×26×512。采用多尺度输入训练策略,输入图片大小选择一系列为32倍数的值: 320,352,…608
模型称为Darknet-19,有19个卷积层和5个maxpooling层。
使用WordTree层次结构组合数据集。
损失函数包含两部分: 分类损失Softmax和回归损失Smooth L1
优点:
1.精度提高,检测准确率比YOLOv1高。
2.速度更快,可达到更高的实时性能。
3.使用了batch normalization技术,可以减轻过拟合问题。
缺点:
1.一个分类器只能检测固定数量的物体,无法处理可变数量的物体。
2.训练和调整模型需要更多的计算资源和时间
3.学习检测设备和服饰表现差
YOLOv3是一种基于深度学习的目标检测算法,它是在YOLOv2的基础上进行了改进和优化,提高了检测的准确度和速度。YOLOv3解决的问题主要有以下几个方面:
• 提高小目标的检测能力。 YOLOv3采用了多尺度预测的方式,使用了三种不同大小的特征图,分别负责检测大、中、小的目标。这样可以增加小目标的感受野,提高小目标的定位和分类效果
• 增加网络的深度和宽度。 YOLOv3使用了Darknet-53作为骨干网络,它是一个由残差模块组成的深层网络,具有较强的特征提取能力。同时,YOLOv3也增加了每个网格单元预测的边框数量,从YOLOv2的5个增加到了3个,这样可以增加网络的表达能力和泛化能力
• 改进边框预测和类别预测。 YOLOv3对边框预测和类别预测进行了一些改进,例如使用logistic回归代替softmax进行多标签分类,使用二值交叉熵代替平方误差进行置信度损失计算,使用k-means聚类代替手动设置进行锚框设计等。这些改进可以提高网络的稳定性和鲁棒性
特征提取器是一个残差模型,因为包含53个卷积层,所以称为Darknet-53。采用类FPN架构来实现多尺度检测。YOLOv3采用了3个尺度的特征图(当输入为416*416时):(13*13),(26*26), (52*52)。使用binary cross-entropy loss分类器。
YOLOv3 的 neck 输出 3 个分支,即输出 3 个特征图, head 模块只有一个分支,由卷积层组成,该卷积层完成目标分类和位置回归的功能。总的来说,YOLOv3 网络的 3 个特征图有 3 个预测分支,分别预测 3 个框,也就是分别预测大、中、小目标。
优点:
1.快速
2.背景误检率低
3.通用性强
缺点:
1.识别物体位置精准性差,小物体检测能力弱
2.召回率低
创新点:
贡献:
我们开发了一个高效、强大的目标检测模型。它使得每个人都可以使用1080 Ti或2080 Ti GPU来训练超级快速准确的目标检测器。
在检测器训练过程中,我们验证了最先进的bag - offrebies和Bag-of-Specials方法对目标检测的影响。
我们修改了最先进的方法,使其更有效,更适合单GPU训练,包括CBN , PAN , SAM等。
讲了通用的改进方法:数据增强,loss函数,增强感受野,注意力机制,特征集成,激活函数,后处理方法(后续开发无锚方法时不再需要进行后处理)
网络结构: CSPDarknet53骨干、SPP附加模块、PANet路径聚合颈和YOLOv3(基于锚点的)头作为YOLOv4的架构。DropBlock作为我们的正则化方法。增强马赛克和自对抗训练(SAT)方法
YOLOv4 consists of :
• Backbone: CSPDarknet53 主要在残差块进行了改进,引入了大残差块;
• Neck: SPP ,PAN
• Head: YOLOv3
创新:
YOLOv5给出了四种版本的目标检测网络,分别是Yolov5s、Yolov5m、Yolov5l、Yolov5x四个模型。
创新点: YOLOv5各部分改进
解决问题:
1.马赛克数据增强使小目标检测效果变好
2. Focus结构减少FLOPs,提高速度
优点:
1.使用pytorch框架,易于训练,投入生产,易于部署
2.提供四种版本,依据实际情况选择
3.模型训练、检测速度快
4.直接对单个图像,批处理图像,视频,摄像头端口输入进行有效推理
缺点: 没有发论文
论文摘要:
本文提出的方法的发展方向不同于目前主流的实时目标检测器。除了架构优化之外,我们提出的方法将侧重于训练过程的优化。我们将重点研究一些优化模块和优化方法,这些模块和优化方法可以在不增加推理成本的情况下,增强训练成本以提高目标检测的准确性。
我们将提出的模块和优化方法称为可训练的免费包。
在本文中,我们将介绍一些我们发现的新问题,并设计有效的方法来解决它们。对于模型的再参数化,采用梯度传播路径的概念,分析了适用于不同网络层的模型再参数化策略,提出了规划的再参数化模型。此外,当我们发现使用动态标签分配技术时,具有多个输出层的模型的训练将产生新的问题。
即 : “如何为不同分支的输出分配动态目标?” 针对这一问题,我们提出了一种新的标签分配方法,即粗到细的导联标签分配方法。
本文的贡献总结如下:
解决的问题、贡献、优点
作为单阶段大名鼎鼎的YOLO系列,速度确实快,精度可能会差一点。
现在最常用的就是yolov5、yolov7、yolov8了。
工业界便于部署使用的大部分是yolov5,不过yolov8现在也使用起来不错,不过使用起来,会出一些bug,修改代码需要修改环境里的Ultralytics代码。现在yolov8也是许多人改进模型的基础模型了(比较好水bushi)。
yolov8改进,我尝试过很多,总体来说效果其实也就那样,许多注意力机制更是几乎没什么用(甚至都不如CBAM)。
不过还是有可以改进的:提高速度和提高精度
如果有需要我可以详细讲一下,我有一些yolov8的改进方法:
可以看我的GitHub yolov8改进
具体策略在 STF-YOLO/cfg/models/v8/ 里
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。