赞
踩
将一幅图像分成SxS个网格(grid cell),如果某个object的中心落在这个网格中,则这个网格就负责预测这个object。
如何确定目标的中心?
答:标注时bounding box的中心即为目标的中心。
每个网格要预测B个bounding box,每个bounding box除了要预测位置之外,还要附带预测一个confidence值。每个网格还要预测C个类别的分数。
B一般取2,C为pascal voc数据集的目标类别数,故取20。
为什么参数为7×7×30?
答:如下图,每个网格(grid cell)需要预测2个bounding box,每个bounding box有5个数值,再加上20个类别数量,一共5+5+20=30。
参数解释:
s-2表示步幅为2
YOLOv1的损失函数由三部分构成:bounding box损失 + confidence损失 + classes损失
w和h开根号再求误差平方和是为了防止同样的偏差对小目标的IOU影响大而对大目标的影响小,如下图。
问题:w和h不都是0-1之间的数吗?按理说都是比例不应该会有这个问题。
包含两部分,obj 为第 i 个grid cell中包含目标的情况,此时
C
^
i
=
1
\hat C_i=1
C^i=1,noobj 为第 i 个grid cell中不包含目标的情况,此时
C
^
i
=
0
\hat C_i=0
C^i=0。
YOLOv2比YOLOv1提高了15个百分点。
在论文的better章节中,一共进行了7种尝试,下面学习一下这7种尝试。
在每个卷积层后面加上了BN层,mAP提高了2个点,加入BN层后可以不再使用dropout层。
使用了更高分辨率的分类器
YOLOv1中训练backbone即分类器时采用的224×224的图像输入,YOLOv1中采用了448×448分辨率的输入图像,mAP提升了4个点。
基于anchor box的目标边界框的预测
不使用anchor box的mAP为69.5,recall为0.81;使用anchor box的mAP为69.2,recall为0.88。mAP有一个很小的下降,但是recall得到了很大的提升,意味着模型有更大的提升空间。
通过k-means聚类的方法生成priors(在faster r-cnn中是经验值),更好的priors使得网络更容易学习且能得到更好的检测效果。
prior box,是指实际中选择的default box(每一个feature map cell 不是k个default box都取)。 也就是说default box是一种概念,prior box则是实际的选取。
解读SSD中的Default box(Prior Box)
这边需要先把anchor box 复习一下
每个anchor(prior)去负责预测目标中心落在某个grid cell 区域内的目标,提升了5个点。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。