赞
踩
SSD(Single Shot Multibox Detector,单次多框检测器)
SSD算法在传统的基础网络(比如VGG)后添加了5个特征图尺寸依次减小的卷积层,对5个特征图的输入分别采用2个不同的3*3的卷积核进行卷积,
每个default box(默认框)生成4个坐标值,最后将5个特征图上的结果合并(Contact),送入loss层。
(Default box类似于Anchor)
feature map被分成了许多小格子,如4*4、8*8等,每一个格子是feature map的一个单元(cell)。
每一个feature map的cell上都有一系列固定大小的不同尺寸的box,叫default box,
上图中虚线的矩形框就是default box。坐标的类别的预测都是基于default box(代码中似乎在default box的基础上进行了处理编程了prior box)预测的。假设每个feature map的大小是m*n,即feature map的cell为m*n个,每一个default box都要预测C个类别的score和4个offset,假设每个feature map对应K个default box,则这张m*n大小的feature map上要产生m*n*K*(4+c)个输出,这也意味着在这张m*n大小的特征图上需要用m*n*k*(c+4)个3*3的卷积核去卷积得到最后的m*n*K*(4+c)个输出。当然这些feature map是3.1中提到的参与最终回归预测的5个层。每一个m*n*K*(4+c)个输出都对应一个3*3的卷积核,对上面的5个层的输出全部都执行上述3*3的卷积操作后,将得到的特征图合并(采用类似Inception模块里的Contact,是通道合并而不是卷积图对应的数值相加)。
1)在基础网络(VGG)后添加了辅助性的层进行多尺度卷积图的预测结果融合;
2)提出了类似Anchor的Default boxes,解决了输入图像目标大小尺寸不同的问题,同时提高了精度,可以理解为一种特征金字塔(FPN);
3)相比于Faster R-CNN,SSD提出了一个彻底的端到端的训练网络,保证了精度的同时大幅度提高了检测速度,且对低分辨率的输入图像的效果很好;
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。