赞
踩
YOLO是近几年目标检测领域的一个创新,在以前的帖子中我们说过,目标检测在刚开始的时候,是通过提取图片的特征,比如SIFT、HOG等,这些特征是研究者人工构建的,使用Deformable Parts Model(DPM)模型,用silding window的方式来预测较高得分bounding box。这种框架非常耗时,而且精度不高。然后出现了以SS(selective search)为代表的object proposal方法,相比较sliding window穷举式的方法,在效果和计算速度上有较大的提高。随着R-CNN系列的出现,将在图像分类上表现出优越性能卷的积神经网络用于目标检测领域,奠定了“Proposal + Classification” 的方法在 Objection Detection 上的地位。但是R-CNN框架也有很多弊端,比如整个网络做不到End to End,中间训练过程需要大量的内存来存储一些特征,计算速度不够理想等。YOLO算法提出了一个新的思路,将 Object Detection 的问题转化成一个 Regression 问题,给定输入图像,直接在图像的多个位置上回归出目标的bounding box及其分类类别。
作者在文章中多次提到R-CNN系列模型做不到端到端的训练,因此每一个独立部分单独训练、保存和优化是很耗内存并且影响计算速度,YOLO则是一个单一的网络结构(卷积层+全连接层)达到目标检测的目的,其检测模型如下图Fig.1 。
如上图所示,对目标检测的过程分为三个步骤:
1、将输入图像resize到一定大小(论文中resize到448 * 448)输入卷积神经网络;
2、通过24层卷积网络和两层的全连接网络,得到一些带参数的bounding box和class probabilities ;
3、通过非极大值抑制,筛选box。
3.1 理解grid cell
YOLO将resize后的图片划分为S*S个网格(grid cell),如果一个物体的中心落在某个网格内,则这个网格负责检测该物体。通过网络,每个网格会预测产生B个bounding box和其confidence score(置信度),以及C个类别概率。这些信心得分反映了模型对盒子包含一个物体的信心程度,以及它对盒子预测的准确性。
作者将置信度定义为:
从定义可以看出置信度包含两个方面:
1、Pr(Object)表示当前bounding box中含有Object的置信度;
2、IOU(pred|truth)表示当前bounding box预测目标位置的准确性。如果bouding box内不存在物体,则Pr(Object)=0,如果包含物体,则根据预测的bounding box和真实的bounding box计算IOU。
YOLO对每一个网格预测产生的B个bounding boxes&
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。