为YOLO V5铺垫：一文看懂YOLO V1-V4的变化_yolov5对v4做的改进

作者：秋刀鱼在做梦 | 2024-07-27 05:41:12

踩

yolov5对v4做的改进

一、前言

YOLO系列一直是最近几年机器视觉的炙手可热的项目之一，自从Joseph Redmon发表于CVPR2016夺得了当年的最佳论文之后，接下来机器视觉领域的学者研究专家蜂拥而至对于Joseph的YOLO框架进行继承和改善，创造出了YOLO V1-8的众多版本开源为大众使用。如今时代，动态物体识别的领域中最主要运用的版本就是YOLO V5。但是YOLO V5的内容是基于之前的YOLO进行修改完善的，因此只学习YOLO V5相关的内容似乎有些不太合理。事实上，从作者本人的经历来看，Joseph在前3个版本的YOLO之中所加入的元素撑起了整个YOLO的框架，而之后的V4 和V5做到的仅仅是在其上添砖加瓦，但是再难以在结构上做出什么创新性的调整，因此学习YOLO V1-3不仅不是浪费时间，其在梳理整个发展的时间线的基础上更是一步一步为YOLO V5的出现铺平着道路。本文将通过对于不同版本的YOLO模型的对比，仅从思想思路上给出对于YOLO V1-4的内容分析。就代码来说，作者下一篇博客将基于ultralytics发布的YOLO V5s的源码进行讲解。

二、总体介绍

简介&每一个版本的基础特性

三、细节对比

1.对比总览

表格如下：

序号	模块/代	V1	V2	V3	V4
1	BackBone 网络架构	Google Net	Darknet 19 (PassThrough)	Darknet53 (Res残差模块)	CSP Darknet53 (CSP架构）
2	Neck部分 &输出形式	无特殊处理一个特征矩阵	无特殊处理一个特征矩阵	采用了FPN结构三个特征矩阵（代表分辨率不同）	采用了PAN结构输出形式同前
3	Anchor相关
	是否采用先验框（Anchor）每个cell采用几个框	否 2预测框/cell	是 5 预测框/cell 对应5 anchor	是 3 预测框/cell 对应9Anchor/点	同 V3
	每一个预测框对应的参数数量	5（W,H,X,Y,C）	25(WHXYC& Imagenet对应的20种class的概率）	85（WHXYC&COCO数据集对应的80种class的概率）	同左

YOLO V1-3的具体变化

那么接下来将按照上面分画的三个大模块进行分析学习与解析。

2.BackBone网络架构上的区别：

V1 VS V2：最大的变化是增加了一个PassThrough 部分：

上图为YOLO V2的结构图，聚焦Passthrough层

从上面的网络结构中可以看出一点：Passthrough层是通过concatenation拼接的，拼接的操作实际上就是和残差结构的直接相加有着异曲同工之妙

Passthrough层的具体行为:

Passthrough层的优劣分析：

优点：通过类似于残差的结构，使得较高分辨率下的特征信息可以保留。

不足：仅仅采用了残差的结构但是没有采用残差块的形式，只有一层细粒度不够

V2 VS V3：Darknet 19 VS Darknet 53:

这一块并没有什么值得分析的内容，网络的加深带来了更好的效果。

V3 VS V4：增添了两个模块：CSP&SPP：

增添CSP和SPP这两个模块属于是trick，不过就实验结果来看属于较为有效的trick。

CSP模块简介：

论文中的CSP模块图

论文：[1911.11929] CSPNet: A New Backbone that can Enhance Learning Capability of CNN (arxiv.org)

CSP模块通过从一开始的矩阵中截下一部分保持原样拼在了经过处理的剩下的矩阵之后，可以说是同时保留了原样的一部分信息和处理后的信息。拼接完成之后通过一组CBR函数（convolution+batch normalization+ReLU）激活就得到了同时糅合了浅层内容（即被直接拼接的原矩阵的一部分）和深层内容（即经过卷积操作之后的原矩阵的另一部分）的输出结果。