赞
踩
回顾了一下之前看过的YOLO系列,本来想自己从头写一个博客,后来发现大佬都写的极其好了,就变成了阅读笔记。
深度学习论文学习流程:
各个系列的YOLO资源如下:
输入图片划分为 7 × 7 7 \times 7 7×7网格,对每个网格单独进行检测,但是这里有一个问题就是YOLO为什么能够检测比Grid_Cell(网格)大很多的物体?
网络结构基本思想是:预测位置、大小及物体分类都是通过CNN暴力Predict预测出来的。
YOLOV1总体价值:
L e a k y − R e L U Leaky-ReLU Leaky−ReLU:不会直接让负数为0,但会衰减负数的输出
y
=
{
x
x
>
0
0.1
x
o
t
h
e
r
w
i
s
e
y =
分而治之:用网络来划分图片区域,每块区域独立检测目标
端到端的训练:损失函数的反向传播可以贯彻整个网络,这本身也是One-Stage检测方法的游戏
自适应锚框:Yolov5中将此功能嵌入到代码中,每次训练时,自适应的计算不同训练集中的最佳锚框值。
小目标检测问题(这里有个感受野计算的问题):
以网络的输入608*608为例,yolov3、yolov4,yolov5中下采样都使用了5次,因此最后的特征图大小是19*19,38*38,76*76。
三个特征图中,最大的7676负责检测小目标,而对应到608608上,每格特征图的感受野是608/76=8*8大小。
再将608608对应到76802160上,以最长边7680为例,7680/608*8=101。
即如果原始图像中目标的宽或高小于101像素,网络很难学习到目标的特征信息。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。