当前位置:   article > 正文

【DL】YOLO_yolo是回归

yolo是回归

YOLO速度非常快(检测问题——>回归问题)。

YOLO是在整个图像上进行处理的。

YOLO能学习到object的泛化表征。

YOLO核心思想

输入:整张图      

输出:bounding box的位置和bounding box所属的类别。

faster RCNN中将整张图作为输入,但是faster-RCNN采用了proposal+classifier(放在CNN中实现)的思想,而YOLO采用的是回归的思路。

2  YOLO的实现

(1)将整幅图像分割成SxS个网格(grid cell)。

    如果某个目标(object)的中心 在这个网格内,那么这个网格(grid cell)就负责预测这个目标(object)。

(2)每一个网格要预测B个bounding box。

    每一个bounding box要回归自身的位置(x, y, w, h)和一个预测值confidence(代表box中含有object的置信度和预测的准确程度这两种信息)。
    预测值confidence的计算方式如下所示:

    其中,若有目标(object)在grid cell内,取值为1,否则为0。   为预测的bounding box与groundtruth之间的IOU值。

(3)每一个bounding box要预测5个值,分别为 (x, y, w, h)和confidence值。

    每个网格(grid cell)需要预测一个类别信息,记为C类。

    因此,将整幅图像分割成SxS个网格,每一个网格要预测B个bounding box及C个categories(分类信息是针对每个网格的)。confidence信息是针对每个bounding box而言的

    输出的tensor:S x S x (5*B+C)

分析:若B=2, C=20,则每一个grid有30维。其中,bounding box的坐标占8维。

                                                                               bounding box的confidence占2维。

                                                                               bounding box的类别占20维。

           将8维的localization error和20维的classification error视为一样重要,这是不合理的。


           当box中有目标(object)存在的时候,confidence loss和类别的loss取1。
           
box predictor的specialization:一个网格预测多个box,前预测的box与ground truth box中哪个IoU比较大,就负责哪个。

3  网络设计

在PASCAL VOC中,

    输入图像尺寸为:448x448,

    S取值为7,

    B取值为2,

    20个类别(C=20)。

输出:7x7x30的tensor。

4  LOSS

5  YOLO存在的缺点

(1)如果物体间相互靠的比较近,检测效果不理想。

         目标为 很小的群体时,检测效果不理想。

         原因:B=2,每一个网格中只预测了2个box,是属于一个类别的。

(2)泛化能力较弱(同一类别的object尺寸不同时,检测效果不理想)。


  

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/846696
推荐阅读
相关标签
  

闽ICP备14008679号