当前位置:   article > 正文

yolo系列论文阅读_yolo论文

yolo论文

YOLOv1

yolov1提出了一种新的识别方法,不同于RCNN系列将识别问题转化为对候选区域的分类,yolo使用回归方法直接预测目标的类别和位置。
在这里插入图片描述

在这里插入图片描述

对输入的每幅图片,yolov1将之分割为7×7的网格,每个网格预测2个bounding boxes.对每个bounding box预测一个置信度(confidence scores),confidence scores定义为:
Alt

当包围盒中存在物体时Pr(Object)=1, 置信度为ground truth与bounding box的交并比,否则Pr(Object)=0.每个bounding box包含5个预测(x, y, w, h, confidence)。(x,y)表示bounding box的中心坐标,w, h表示bounding box的宽和高。
对每个网格进行类别预测:Pr(Classi|Object) , 表示该网格中包含各类物体的概率。

注意:yolov1只对每个网格进行类别预测,而不是对每个bounding box进行类别预测。默认每个网格中只包含一个物体。若存在多个物体,则取交并比最大的一个计算。

每个网格目标识别的结果(哪个种类,概率是多少):
在这里插入图片描述
yolov1的网络结构
网络使用一系列简单的3×3,1×1卷积,最后全连接层输出预测结果tensor。
在这里插入图片描述
由于目标识别通常需要细粒度的视觉信息,作者将网络的输入分辨率提高到了448×448(注意训练时依然用的224×224分辨率),网络输出为7×7×(20+5×2)的tensor。

损失函数
在这里插入图片描述
当bounding box中不包含物体时,Pr(Object)=0, 推动置信度为0,不包含物体梯度下降超过了包含物体的梯度,由于一幅图像中不包含物体的网格有很多,这样会在训练时造成梯度发散,模型不稳定。为了解决这个问题,增加坐标预测的权重,减少confidence sorces的预测权重。令λcoord=5, λnoobj=0.5。

yolo优点:识别速度快,能够达到45帧/s,轻量级版本能够达到155帧/s, 准确度比上不足,比下有

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/991623
推荐阅读
相关标签
  

闽ICP备14008679号