【DL】YOLO_yolo是回归

作者：我家自动化 | 2024-07-18 16:34:37

踩

yolo是回归

YOLO速度非常快（检测问题——>回归问题）。

YOLO是在整个图像上进行处理的。

YOLO能学习到object的泛化表征。

输入：整张图

输出：bounding box的位置和bounding box所属的类别。

faster RCNN中将整张图作为输入，但是faster-RCNN采用了proposal+classifier（放在CNN中实现）的思想，而YOLO采用的是回归的思路。

(1)将整幅图像分割成SxS个网格(grid cell)。

如果某个目标（object）的中心在这个网格内，那么这个网格(grid cell)就负责预测这个目标（object）。

(2)每一个网格要预测B个bounding box。

每一个bounding box要回归自身的位置(x, y, w, h)和一个预测值confidence（代表box中含有object的置信度和预测的准确程度这两种信息）。
预测值confidence的计算方式如下所示：

其中，若有目标（object）在grid cell内，取值为1，否则为0。为预测的bounding box与groundtruth之间的IOU值。

(3)每一个bounding box要预测5个值，分别为 (x, y, w, h)和confidence值。

每个网格(grid cell)需要预测一个类别信息，记为C类。

因此，将整幅图像分割成SxS个网格，每一个网格要预测B个bounding box及C个categories（分类信息是针对每个网格的）。confidence信息是针对每个bounding box而言的。

输出的tensor：S x S x (5*B+C)。

分析：若B=2, C=20,则每一个grid有30维。其中，bounding box的坐标占8维。

bounding box的confidence占2维。

bounding box的类别占20维。

将8维的localization error和20维的classification error视为一样重要，这是不合理的。

当box中有目标（object）存在的时候，confidence loss和类别的loss取1。

box predictor的specialization：一个网格预测多个box，前预测的box与ground truth box中哪个IoU比较大，就负责哪个。

在PASCAL VOC中，

输入图像尺寸为：448x448，

S取值为7，

B取值为2，

20个类别(C=20)。

输出：7x7x30的tensor。

（1）如果物体间相互靠的比较近，检测效果不理想。

目标为很小的群体时，检测效果不理想。

原因：B=2，每一个网格中只预测了2个box，是属于一个类别的。

（2）泛化能力较弱（同一类别的object尺寸不同时，检测效果不理想）。

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/我家自动化/article/detail/846696