赞
踩
目标检测的特征融合经历了Featurized image pyramid、Single feature map、Pyramidal feature hierarchy和Feature Pyramid Network(YOLOv3)发展过程。到目前,涌现出了像GFM(ThunderNet)、EFM(CSPNet)、PANet等表现更优秀的特征金字塔模型,直到以后出现的更系统也更复杂的NAS-FPN模型.
这篇论文发表在2017年4月,总结了之前常用的方法:
目标检测的backbone网络分为多个stage,同一个stage内部各层的feature map具有相同的大小(以darknet53为例,其有5个stage),每个stage的最后一层特征图作为该stage的最终输出特征图。
作者提出的FPN架构如下图所示,最后几个stage的输出特征图加一个横向连接(lateral connect),然后加一个top-down pathway。
lateral connect包括1*1的卷积操作,这样使得从不同stage传递来的特征图数量相同,便于后续相加操作;top-bottom pathway包括upsampling操作,这样可以使得该层特征图与下层特征图具有相同的size,也是便于后续的相加操作。
这种架构下,除了top-bottom pathway最上面的一层只来自backbone最后一个stage的feature map,其余的都是两个不同stage的feature map的融合。较低level的stage出来的feature map具有更丰富的位置信息(分辨率高),而较高level的stage出来的feature map具有更丰富的语义信息,但位置信息相对较少。将不同stage的特征图融合后,可以保证得到的融合后特征图具有较精确的位置信息和较丰富的语义信息。
需要注意的是,这里上采样采用的是最邻近差值法,如下图所示:
GFM出现在论文《CSPNET: A NEW BACKBONE THAT CAN ENHANCE LEARNING CAPABILITY OF CNN》中,作为和EFM对比的一个架构,而EFM则是该论文中采用跨通道方法建立的特征融合模型。具体可阅读改论文了解。
该金字塔网络架构出自《Path Aggregation Network for Instance Segmentation》,PANet架构如下图所示:
其中特征金字塔网络可以看成由上图中的(a)FPN和(b)两部分组成。加入的(b)由下到上的pathway带来的好处是,底层的高分辨率信息可以更有效地传递给高层特征层。这种结构在YOLOv4中也借鉴了。
采用Neural Architecture Search设计特征金字塔网络,其中几种结构的对比如图(7)下:
上图中一个点代表一个特征层,特征图分辨率由下到上逐渐降低;用绿圈圈出的点代表FPN的输入特征层,用红圈圈出的点代表FPN的输出层;(a)为FPN的baseline架构;(b)-(f)为RNN controller训练获得的具有7个cell的NAS-FPN结构,其中第(f)个是本文试验用的架构,也就是图6展示的。
一个merging cell具有如下结构:
该论文研究指出,对于提高目标检测准确度,在一定范围内通过改变NAS-FPN结构比更换backbone网络更有效,如下图所示(原文中还给出了参数量和计算量的比较):
上图中marker上方的数字表示NAS-FPN中金字塔网络重复堆叠的次数。
本文也研究了金字塔网络重复堆叠次数、backbone架构和特征层通道数对目标检测准确度的影响,分别如下图所示。从下图中的(a)可以看出NAS-FPN要比baseline的FPN具有更好的性质,重复堆叠多次后,模型准确度并没有下降,而baseline的FPN对应的准确度在堆叠次数达到一定数量后开始下降;NAS-FPN对较简单的Backbone的提升效果更明显,比较复杂的backbone对应的准确度在金字塔网络重复堆叠次数达到一定值后便很难再有明显提升,甚至有下降趋势;特征层通道数与金字塔网络重复堆叠次数之间存在一定相互作用,当特征层通道数比较小时,通过增加金字塔网络重复堆叠次数获得的准确度提高程度越明显。
欢迎批评指正!!!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。