yolov算法详解_YOLO v1深入理解

作者：weixin_40725706 | 2024-08-16 01:18:13

踩

yolov是什么

YOLO(You Only Look Once)是一种基于深度神经网络的对象识别和定位算法，其最大的特点是运行速度很快，可以用于实时系统。

现在YOLO已经发展到v3版本，不过新版本也是在原有版本基础上不断改进演化的，所以本文先分析YOLO v1版本。

关于 YOLOv2/YOLO9000 的分析理解请移步 YOLO v2 / YOLO 9000。

对象识别和定位

输入一张图片，要求输出其中所包含的对象，以及每个对象的位置(包含该对象的矩形框)。

图1 对象识别和定位

对象识别和定位，可以看成两个任务：找到图片中某个存在对象的区域，然后识别出该区域中具体是哪个对象。

对象识别这件事(一张图片仅包含一个对象，且基本占据图片的整个范围)，最近几年基于CNN卷积神经网络的各种方法已经能达到不错的效果了。所以主要需要解决的问题是，对象在哪里。

最简单的想法，就是遍历图片中所有可能的位置，地毯式搜索不同大小，不同宽高比，不同位置的每个区域，逐一检测其中是否存在某个对象，挑选其中概率最大的结果作为输出。显然这种方法效率太低。

RCNN/Fast RCNN/Faster RCNN

RCNN开创性的提出了候选区(Region Proposals)的方法，先从图片中搜索出一些可能存在对象的候选区(Selective Search)，大概2000个左右，然后对每个候选区进行对象识别。大幅提升了对象识别和定位的效率。

不过RCNN的速度依然很慢，其处理一张图片大概需要49秒。因此又有了后续的Fast RCNN 和 Faster RCNN，针对 RCNN的神经网络结构和候选区的算法不断改进，Faster RCNN已经可以达到一张图片约0.2秒的处理速度。下图来自 R-CNN, Fast R-CNN, Faster R-CNN, YOLO — Object Detection Algorithms

图2 RCNN系列处理速度

但总体来说，RCNN系列依然是两阶段处理模式：先提出候选区，再识别候选区中的对象。

YOLO

YOLO意思是You Only Look Once，创造性的将候选区和对象识别这两个阶段合二为一，看一眼图片(不用看两眼哦)就能知道有哪些对象以及它们的位置。

实际上，YOLO并没有真正去掉候选区，而是采用了预定义的候选区(准确点说应该是预测区，因为并不是Faster RCNN所采用的Anchor)。也就是将图片划分为 7*7=49 个网格(grid)，每个网格允许预测出2个边框(bounding box，包含某个对象的矩形框)，总共 49*2=98 个bounding box。可以理解为98个候选区，它们很粗略的覆盖了图片的整个区域。

RCNN：我们先来研究一下图片，嗯，这些位置很可能存在一些对象，你们对这些位置再检测一下看到底是哪些对象在里面。

YOLO：我们把图片大致分成98个区域，每个区域看下有没有对象存在，以及具体位置在哪里。

RCNN：你这么简单粗暴真的没问题吗？

YOLO：当然没有......咳，其实是有一点点问题的，准确率要低一点，但是我非常快！快！快！

RCNN：为什么你用那么粗略的候选区，最后也能得到还不错的bounding box呢？

YOLO：你不是用过边框回归吗？我拿来用用怎么不行了。

RCNN虽然会找到一些候选区，但毕竟只是候选，等真正识别出其中的对象以后，还要对候选区进行微调，使之更接近真实的bounding box。这个过程就是边框回归：将候选区bounding box调整到更接近真实的bounding box。

既然反正最后都是要调整的，干嘛还要先费劲去寻找候选区呢，大致有个区域范围就行了，所以YOLO就这么干了。

不过话说回来，边框回归为啥能起作用，我觉得本质上是因为分类信息中已经包含了位置信息。就像你看到主子的脸和身体，就能推测出耳朵和屁股的位置。

图3 边框调整

下面具体看下YOLO的实现方案。

1)结构

去掉候选区这个步骤以后，YOLO的结构非常简单，就是单纯的卷积、池化最后加了两层全连接。单看网络结构的话，和普通的CNN对象分类网络几乎没有本质的区别，最大的差异是最后输出层用线性函数做激活函数，因为需要预测bounding box的位置(数值型)，而

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/985968