赞
踩
目标检测学习之YOLOv1~v3系列
参考b站uphttps://space.bilibili.com/18161609
Yolo是典型的one stage网络
YOLO v1论文思想
网络结构
损失函数
YOLO v1存在的问题
当一些小目标聚集在一起时,预测结果非常差
当目标出现新的尺寸时,预测效果也比较差。
YOLO v2原论文为YOLO9000,性能相比于YOLO v1提升了将近15个百分点。
YOLO v2相比于v1版本做了一些新的尝试
k-means聚类方法可参考博文使用k-means聚类anchors
网络结构
YOLO v3没有什么太多创新点,主要是整合当前热门网络所构成的一个方法。
论文名称:YOLOv3: An Incremental Improvement
论文下载地址: https://arxiv.org/abs/1804.02767
YOLO v3的backbone改为Darknet-53,该backbone的结构与Resnet类似,但Darknet-53没有最大池化下采样,而是利用步距为2的卷积来对高和宽进行缩减。这样速度会进一步提升。
Darknet中的卷积层并不是普通的卷积层,是一个卷积+bn+LeakyReLU激活函数,(使用bn时卷积层没有偏置参数)。方框框住的部分是一个残差结构。
YOLO v3会在三个特征层上进行预测,每个特征层上会使用三种尺度,三种尺度在原论文中给出。
以YOLO v3 416模型为例,输入图像尺寸为416×416,通过Darknet53输出的预测特征图大小为13×13。接下来通过一个convolutional set
然后再通过一个3×3的卷积,得到第一个预测特征图,大小为13×13,最后使用一个卷积核大小为1×1的预测器在预测特征图上进行预测,预测参数的个数为13×13×3×(4+1+80)(COCO数据集,种类为80)。
在Convolational Set处往下进行,首先是经过1×1的卷积层,然后经过上采样,再与Darknet53中26×26的部分在深度上进行拼接(与FPN在对应维度上进行相加不同)。之后再进行一个Convolational Set处理,产生两个分支。第二个预测特征层与后面第三个预测特征层同理,在此不再赘述。
目标边界框的预测
与YOLO v2 相同,YOLO v3中采用的anchor机制与之前的ssd与faster r-cnn是有些许不同的,YOLO v3中网络所预测的有关目标中心点的回归参数并不是相对于anchor的,而是相对于当前cell的左上角这个点的。
正负样本匹配
针对每一个GT box,都会分配一个正样本,会选与GT重合最大的bounding box作为正样本,对于那些重合程度也超过阈值但不是最大的那些box,论文中说会直接丢弃该预测结果。剩下的样本均为负样本。
损失的计算
置信度损失
类别损失
定位损失
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。