赞
踩
yolov2:better,faster,stronger
虽然检测速度很快,但是在检测精度上却不如R-CNN系列的检测方法。yolov1在物体定位方面不够准确,并且召回率(recall)很低。
1.batch normalization
yolov2 网路在每个卷积层后面添加了bn层,改善收敛速度,减少了对其他正则化方法的依赖(舍弃了dropout优化后依然没有过拟合)
2.高分辨率分类器
v1先以224224预训练分类网路,然后分辨率调整到448448进行检测网络
3.anchor box
v1使用全连接层数据进行boundingbox预测,这会丢失较多的空间定位信息,v2借鉴了anchor思想,在特征图上每个特征点取一定数量的不同大小和比例的anchor,由于特征图上的每个特征点对应于原图像的某个固定区域,故很好保留了空间定位信息。此外,用预测相对偏移,取代直接预测坐标简化了问题,便于网路学习。
v1-v2
将网路输入图片分辨率由448448改为416416,目的是使特征图的宽高都为奇数,即可产生一个center cell。使用卷积层降采样总步长为32,使得输入416416图片最终得到1313的特征图。v2抛弃每个cell预测一个类别,而是全部放到anchor box中(anchor box同时预测类别和坐标),可以实现对于anchor类别的预测而非每个特征点仅能有一个类别。
4.维度聚类(保持快的速度)(如何确定尺寸)
k-meas 聚类,对数据集的gtbox做聚类,
faster:
特征提取网路:Googlenet->darknet19
5.(如何确定位置)
引入Sigmoid函数预测offset,解决了anchor boxes的预测位置问题,采用了新的损失函数,二元采用预测相对于grid cell的坐标位置,同时把gt限制在0到1之间(利用logistic激活函数约束网路的预测值来达到此限制)
沿用了YOLO算法中直接预测相对于grid cell的坐标位置的方式。
前面提到网络在最后一个卷积层输出13*13大小的feature map,然后每个cell预测5个bounding box,然后每个bounding box预测5个值:tx,ty,tw,th和to(这里的to类似YOLOv1中的confidence)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。