赞
踩
在正式介绍YOLO之前,我们来看一张图:
可以看出YOLO的最大特点是速度快。
一个网络搞定一切,GoogleNet + 4个卷积+2个全连接层
以图示的方式演示:
2、默认7 * 7个单元格,这里用3 * 3的单元格图演示
3、每个单元格预测两个bbox框
4、进行NMS筛选,筛选概率以及IoU
最后网络输出的7 * 7 * 30的特征图怎么理解?7 * 7=49个像素值,理解成49个单元格,每个单元格可以代表原图的一个方块。单元格需要做的两件事:
1.每个单元格负责预测一个物体类别,并且直接预测物体的概率值
2.每个单元格预测两个(默认)bbox位置,两个bbox置信度(confidence) 7 * 7 * 2=98个bbox
一个网格会预测两个Bbox,在训练时我们只有一个Bbox专门负责(一个Object 一个Bbox)
怎么进行筛选?
每个bounding box都对应一个confidence score
注:所以如何判断一个grid cell中是否包含object呢?如果一个object的ground truth的中心点坐标在一个grid cell中,那么这个grid cell就是包含这个object,也就是说这个object的预测就由该grid cell负责。
这个概率可以理解为不属于任何一个bbox,而是属于这个单元格所预测的类别。
每个Bbox的Class-Specific Confidence Score以后,设置阈值,滤掉概率的低的bbox,对每个类别过滤IoU,就得到最终的检测结果
怎么理解这个过程?
同样以分类那种形式来对应,假设以一个单元格的预测值为结果,如下图:
Faster R-CNN利用RPN网络与真实值调整了候选区域,然后再进行候选区域和卷积特征结果映射的特征向量的处理来通过与真实值优化网络预测结果。而这两步在YOLO当中合并成了一个步骤,直接网络输出预测结果进行优化。
所以经常也会称之为YOLO算法为直接回归法代表。YOLO的特点就是快
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。