yolo系列论文阅读_yolo论文

作者：盐析白兔 | 2024-08-17 06:43:08

踩

yolo论文

YOLOv1

yolov1提出了一种新的识别方法，不同于RCNN系列将识别问题转化为对候选区域的分类，yolo使用回归方法直接预测目标的类别和位置。
在这里插入图片描述

在这里插入图片描述

对输入的每幅图片，yolov1将之分割为7×7的网格，每个网格预测2个bounding boxes.对每个bounding box预测一个置信度（confidence scores）,confidence scores定义为：
Alt

当包围盒中存在物体时Pr(Object)=1, 置信度为ground truth与bounding box的交并比,否则Pr(Object)=0.每个bounding box包含5个预测（x, y, w, h, confidence)。（x,y）表示bounding box的中心坐标，w, h表示bounding box的宽和高。
对每个网格进行类别预测：Pr(Class_i|Object) , 表示该网格中包含各类物体的概率。

注意：yolov1只对每个网格进行类别预测，而不是对每个bounding box进行类别预测。默认每个网格中只包含一个物体。若存在多个物体，则取交并比最大的一个计算。

每个网格目标识别的结果（哪个种类，概率是多少）：
在这里插入图片描述
yolov1的网络结构：
网络使用一系列简单的3×3，1×1卷积，最后全连接层输出预测结果tensor。

由于目标识别通常需要细粒度的视觉信息，作者将网络的输入分辨率提高到了448×448（注意训练时依然用的224×224分辨率），网络输出为7×7×（20+5×2）的tensor。

损失函数：
在这里插入图片描述
当bounding box中不包含物体时，Pr(Object)=0, 推动置信度为0，不包含物体梯度下降超过了包含物体的梯度，由于一幅图像中不包含物体的网格有很多，这样会在训练时造成梯度发散，模型不稳定。为了解决这个问题，增加坐标预测的权重，减少confidence sorces的预测权重。令λ_coord=5, λ_noobj=0.5。

yolo优点：识别速度快，能够达到45帧/s，轻量级版本能够达到155帧/s, 准确度比上不足，比下有

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/991623