赞
踩
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
多尺度特征融合被广泛运用到目标检测,图像分割,图像分类等领域。本文从三个方面多尺度特征融合的发展历程,多尺度特征融合的好处,缺陷,多尺度特征融合分类简单介绍多尺度特征融合。
多尺度特征融合的发展历程可以追溯到目标检测领域的发展。最早的目标检测算法使用的是固定尺度的特征,限制了算法的性能。
在检测尺度较大、细节特征丰富的目标时,需要更强的语义信息作为分类依据;在检测尺度较小、偏差容忍度较小的目标时,则需要更细粒度的空间信息以实现精确定位.因此,要解决尺度问题,最常见的思路是构建多尺度的特征表达。
一种常见的多尺度特征融合方法是金字塔结构。金字塔结构通过在不同尺度上提取特征,然后将这些特征进行融合,以获取更全面的特征表示。金字塔结构的发展经历了多个阶段。最早的金字塔结构是基于图像金字塔的,通过对输入图像进行多次下采样得到不同尺度的图像,然后提取特征进行融合。后来,随着深度学习的发展,研究者提出了基于特征金字塔网络(FPN)的方法,通过在网络中构建多尺度的特征金字塔来实现特征融合。最近,一些研究工作还提出了更复杂的金字塔结构,如BiFPN和AWFFPN,通过引入更多的层级和特征融合方式来提升性能。
另一种常见的多尺度特征融合方法是跳跃连接。跳跃连接通过在网络中引入短连接,将浅层的特征与深层的特征进行融合。这种方法可以帮助网络更好地利用不同层级的特征信息,提升目标检测的性能。
总而言之,多尺度特征融合是目标检测领域的重要研究方向,通过融合不同尺度的特征可以提升目标检测的准确性和鲁棒性
提高检测和识别性能:多尺度特征融合可以捕捉到目标物体在不同尺度下的细节和特征。通过融合不同尺度的信息,可以提高目标检测和识别任务的性能,使模型更具鲁棒性和准确性。
增强上下文信息:特征在不同尺度下提供了不同的上下文信息。多尺度特征融合能够有效地整合这些上下文信息,提供更全面、丰富的视觉上下文。这对于理解图像中的对象、场景和关系至关重要。
解决尺度问题:在计算机视觉任务中,物体的尺度可能会有很大的变化。通过多尺度特征融合,可以更好地处理尺度变化,从而提高模型在不同尺度下的适应能力。
提升目标定位和分割精度:对于目标定位和分割任务,多尺度特征融合可以提供更准确的位置和边界信息。融合不同尺度的特征可以增强目标的边缘、纹理和形状等特征,从而提升目标定位和分割的精度。
增强模型的鲁棒性:多尺度特征融合可以提高模型的鲁棒性和泛化能力。通过融合多尺度的信息,模型可以对不同的场景、光照变化和尺度变化具有更好的适应性,从而提高模型在实际应用中的效果和稳定性。
总之,多尺度特征融合能够综合利用不同尺度的信息,提取更丰富、多样的特征,从而提高计算机视觉任务的性能和鲁棒性。它在目标检测、图像分类、图像分割等领域都具有广泛的应用和重要的价值。
尺度选择问题:不同的图像尺度对目标物体的表示和检测具有不同的优势。如何选择合适的尺度以最大化目标检测的效果是一个挑战。一种解决方法是使用多尺度的图像金字塔来覆盖不同尺度的信息。
尺度匹配问题:在多尺度融合中,不同尺度的特征需要进行匹配,以实现目标检测、跟踪或重建等任务。如何有效地匹配不同尺度的特征是一个重要问题。
融合策略问题:多尺度融合需要将来自不同尺度的信息进行集成,以获得更准确的结果。适当的融合策略对于提高图像处理任务的性能至关重要。融合策略可以基于权重、特征选择、特征变换等方法来设计。
计算复杂度问题:多尺度融合可能会带来较高的计算复杂度,特别是当需要处理大规模的图像或视频数据时。优化计算效率,减少计算复杂度是一个需要解决的问题。
数据稀缺问题:多尺度融合通常需要大量的标注数据进行模型训练。然而,在某些领域或任务中,获取大规模标注数据可能具有很高的成本。如何在数据稀缺的情况下有效地使用多尺度信息也是一个挑战。
这些问题需要通过算法改进、网络设计、数据集构建等方面的研究来解决,以促进多尺度融合技术的发展和应用。
按照融合与预测的先后顺序,分类为早融合(Early fusion)和晚融合(Late fusion)。
早融合(Early fusion): 先融合多层的特征,然后在融合后的特征上训练预测器**(只在完全融合之后,才统一进行检测)。这类方法也被称为skip connection,即采用concat、add操作**。这一思路的代表是Inside-Outside Net(ION)和HyperNet。两个经典的特征融合方法:
(1)concat:系列特征融合,直接将两个特征进行连接。两个输入特征x和y的维数若为p和q,输出特征z的维数为p+q;
(2)add:并行策略,将这两个特征向量组合成复向量,对于输入特征x和y,z = x + iy,其中i是虚数单位。
晚融合(Late fusion):通过结合不同层的检测结果改进检测性能**(尚未完成最终的融合之前,在部分融合的层上就开始进行检测,会有多层的检测,最终将多个检测结果进行融合)**。这一类研究思路的代表有两种:
(1)feature不融合,多尺度的feture分别进行预测,然后对预测结果进行综合,如Single Shot MultiBox Detector (SSD) , Multi-scale CNN(MS-CNN)
(2)feature进行金字塔融合,融合后进行预测,如Feature Pyramid Network(FPN)等,PANet,MLFPN,
将原始图片resize到不同尺寸,将这一组图片作为输入
高斯金字塔
拉普拉斯金字塔
通过切块获得不同尺度图像
A.并行多分支网络
a.inception.
包括有四个并行的分支结构,分别是 1×1 卷积,3×3 卷积,5×5 卷积,3×3 最大池化,最后对四个通道进行组合
b.SPPnet.
黑色图片代表卷积之后的特征图,接着我们以不同大小的块来提取特征,分别是4×4,2×2,1×1,将这三张网格放到下面这张特征图上,就可以得到16+4+1=21种不同的块(Spatial bins),我们从这21个块中,每个块提取出一个特征,这样刚好就是我们要提取的21维特征向量。这种以不同的大小格子的组合方式来池化的过程就是空间金字塔池化SPP
c.ASPP.
受到SPPNet启发,通过对在单个尺度上提取的卷积特征进行重采样,可以准确有效地对任意比例的区域进行分类。DeepLab V2实现了这个方案的变体,它使用具有不同采样率的多个并行的空洞卷积层。为每个采样率提取的特征将在单独的分支中进一步处理并融合以生成最终结果
d.PSPnet.
为了保持全局特征的权重,若如果金字塔的数量为 N,则在每个金字塔级别之后使用 1×1 卷积层将上下文表示的维度减小到原先的 1/N。然后直接对feature map进行双线性插值,恢复到输入的长宽上。最后,将不同level的特征拼接起来作为金字塔池化的全局特征。
B.串行跳层连接结构
a.FPN——对SSD进行改进
backbone可以分为浅层网络和深层网络,浅层网络负责提取目标边缘等底层特征,而深层网络可以构建高级的语义信息,通过使用FPN这种方式,让深层网络更高级语义的部分的信息能够融合到稍浅层的网络,指导浅层网络进行识别。
b.U-net,对FCN的改进
c.ASFF
ASFF(论文:Learning Spatial Fusion for Single-Shot Object Detection)作者在YOLOV3的FPN的基础上,研究了每一个stage再次融合三个stage特征的效果
d.HRNet.
通过并行多个分辨率的分支,加上不断进行不同分支之间的信息交互,同时达到强语义信息和精准位置信息的目的。
d.PANet
e.BIFPN
在不同的特征尺度进行预测,最后将结果进行融合。
利用多尺度特征的典型代表就是2016年日出的鼎鼎有名的SSD,它直接利用不同stage的特征图分别负责不同scale大小物体的检测。
学习权重分布:输入数据或特征图上的不同部分对应的专注度不同,对此Jason Zhao在知乎回答中概括得很好,大体如下:
这个加权可以是保留所有分量均做加权(即soft attention);也可以是在分布中以某种采样策略选取部分分量(即hard attention),此时常用RL来做。
这个加权可以作用在原图上,也就是《Recurrent Model of Visual Attention》(RAM)和《Multiple Object Recognition with Visual Attention》(DRAM);
也可以作用在特征图上,如后续的好多文章(例如image caption中的《 Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》)。
这个加权可以作用在空间尺度上,给不同空间区域加权;
也可以作用在channel尺度上,给不同通道特征加权;甚至特征图上每个元素加权。 这个加权还可以作用在不同时刻历史特征上,如Machine Translation。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。