赞
踩
YOLO速度非常快(检测问题——>回归问题)。
YOLO是在整个图像上进行处理的。
YOLO能学习到object的泛化表征。
输入:整张图
输出:bounding box的位置和bounding box所属的类别。
faster RCNN中将整张图作为输入,但是faster-RCNN采用了proposal+classifier(放在CNN中实现)的思想,而YOLO采用的是回归的思路。
(1)将整幅图像分割成SxS个网格(grid cell)。
如果某个目标(object)的中心 在这个网格内,那么这个网格(grid cell)就负责预测这个目标(object)。
(2)每一个网格要预测B个bounding box。
每一个bounding box要回归自身的位置(x, y, w, h)和一个预测值confidence(代表box中含有object的置信度和预测的准确程度这两种信息)。
预测值confidence的计算方式如下所示:
其中,若有目标(object)在grid cell内,取值为1,否则为0。
为预测的bounding box与groundtruth之间的IOU值。
(3)每一个bounding box要预测5个值,分别为 (x, y, w, h)和confidence值。
每个网格(grid cell)需要预测一个类别信息,记为C类。
因此,将整幅图像分割成SxS个网格,每一个网格要预测B个bounding box及C个categories(分类信息是针对每个网格的)。confidence信息是针对每个bounding box而言的。
输出的tensor:S x S x (5*B+C)。
分析:若B=2, C=20,则每一个grid有30维。其中,bounding box的坐标占8维。
bounding box的confidence占2维。
bounding box的类别占20维。
将8维的localization error和20维的classification error视为一样重要,这是不合理的。
当box中有目标(object)存在的时候,confidence loss和类别的loss取1。
box predictor的specialization:一个网格预测多个box,前预测的box与ground truth box中哪个IoU比较大,就负责哪个。
在PASCAL VOC中,
输入图像尺寸为:448x448,
S取值为7,
B取值为2,
20个类别(C=20)。
输出:7x7x30的tensor。
(1)如果物体间相互靠的比较近,检测效果不理想。
目标为 很小的群体时,检测效果不理想。
原因:B=2,每一个网格中只预测了2个box,是属于一个类别的。
(2)泛化能力较弱(同一类别的object尺寸不同时,检测效果不理想)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。