赞
踩
【目标检测经典算法】R-CNN、Fast R-CNN和Faster R-CNN详解系列二:Fast R-CNN图文详解
感受野(Receptive Field) 是指特征图上的某个点能看到的输入图像的区域。
在论文中,ZF网络特征图中
3
∗
3
3*3
3∗3的滑动窗口在原图中的感受野为
171
∗
171
171*171
171∗171
Faster R-CNN不再需要SS算法进行候选框的生成,而是使用RPN进行锚框的生成和筛选,可以和分类回归任务放在一起进行实现,是一个一阶段任务。
在图像上预设好的不同大小,不同长宽比的参照框。 论文中设定每个区域可以生成k个anchor box。
由于每个目标的大小不同,所以会预设的anchors的大小和长宽比也不同。
在论文中预设了3种不同的面积和3种不同的比例大小的anchors:
因此一共会有9个anchors生成。
将图片输入网络得到相应的特征图后,将有一个3*3的滑动窗口在特征图上进行滑动,每滑动到一个新的位置,就生成一个一维向量(维度由所使用的backbone决定),在一维向量的基础上连接两个全连接层(cls layer和reg layer),获得2k个分类参数和4k个位置参数。
根据滑动窗口所在的特征图的中心点坐标以及特征图和原图的比例还原找到原图中所在位置的中心点坐标,然后根据原图所在位置的中心点坐标生成k个anchors(图中假设k=3),这些anchors中可能包含着需要检测的目标。
一维向量通过 1 ∗ 1 1*1 1∗1、个数为2k的卷积核可以生成2k个分类scores,通过 1 ∗ 1 1*1 1∗1、个数为4k的卷积核可以生成4k个分类scores。
生成的参数具体代表的含义如下图所示。
将大量生成的anchors进行筛选和删除,再通过NMS进行重叠的候选框,最后剩下大约2000个候选框(和SS算法生成的候选框数量差不多)
正样本:
一般第一条就完全可以生成足够的标注框,但是为了防止所有的anchors与标注框的交并比都不大于0.7的特殊情况,则加上了第二个条件
负样本: 与所有的标注框的iou值都<0.3的anchors
可以看到
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。