赞
踩
多模态图像融合旨在从不同的模态中整合信息,以创建具有全面信息和详细纹理的单张图像。然而,基于卷积神经网络融合模型在捕捉全局图像特征方面存在局限性,这是由于它们侧重于局部卷积操作。
尽管基于Transformer的模型在全球特征建模方面表现出色,但它们却面临着由二次复杂度引起的计算挑战。
近期,选择性的结构化状态空间模型显示出在具有线性复杂度的情况下建模长距离依赖关系的显著潜力,这为解决前述困境提供了一条有希望的道路。
在本文中,作者提出了FusionMamba,这是一种新颖的动态特征增强多模态图像融合方法,使用了Mamba。具体来说,作者设计了一个改进的高效Mamba模型用于图像融合,该模型集成了高效的视觉状态空间模型与动态卷积和通道注意力。
这个精炼的模型不仅保持了Mamba的性能和全局建模能力,同时减少了通道冗余并增强了局部增强能力。此外,作者还设计了一个动态特征融合模块(DFFM),它包含两个动态特征增强模块(DFEM)和一个跨模态融合Mamba模块(CMFM)。
前者用于动态纹理增强和动态差异感知,而后者则增强模态间的相关性特征并抑制多余的跨模态信息。
FusionMamba在各种多模态医学图像融合任务(CT-MRI、PET-MRI、SPECT-MRI)、红外与可见图像融合任务(IR-VIS)以及多模态生物医学图像融合数据集(GFP-PC)上均取得了最先进(SOTA)的性能,这证明了作者模型的泛化能力。
不同的传感器捕捉独特的数据视角。红外传感器擅长于热辐射捕捉,可见光传感器在详细纹理数据方面表现优异。医学成像中的MRI和CT提供结构洞察,而PET提供功能数据。由于硬件限制,单一传感器无法捕捉到图像的全部复杂性。图像融合整合源图像以生成信息丰富的图像。红外-可见光以及医学图像融合是至关重要的子类别,有助于诊断并增强图像。融合技术解决了敏感性和噪声问题,支持实际应用。
近年来,深度学习在多模态图像融合领域的应用显著增加,主要使用卷积神经网络(CNNs) 和 Transformer 结构 进行特征提取和重建。然而,这些模型都存在局限性。具体来说,这些融合方法中对静态卷积层的运用导致了对整个图像的统一遍历,由于受限于感受野[12],这限制了它们捕捉全局上下文信息的能力。此外,静态卷积层对每个像素的盲目处理忽略了不同位置之间微妙的的空间差异。鉴于图像融合任务迫切需要处理多样化的输入数据,当前的基于卷积的技术很难有效地从不同模态中提取特征,导致融合性能下降。基于 Transformer 的模型在全球建模方面表现卓越,但由于其自注意力机制[11],在图像尺寸方面存在二次复杂度问题,从而带来了相当大的计算负担。此外,与 CNNs 相比,Transformers 在捕捉局部特征方面的精度较低。尽管某些融合模型[3, 24]采取了混合方法,通过结合卷积层和 Transformer 层来利用各自的优势并减轻不足,但计算负担依然是一个重大问题。
图像融合是一种关键的图像增强技术[12]。方法通常采用三种主要的特征融合策略。首先,一些方法使用逐元素操作,如加法、乘法或拼接[5, 26],来合并来自不同模态的特征。然而,这些方法忽视了模态间的相互关系,导致融合性能受到影响。其次,有方法专注于更深入的特征提取[3, 24],但它们仍然缺乏有效的模态间交互和对纹理细节的强调。最后,特定的技术利用跨模态融合[12],包括基于卷积和基于Transformer的方法,这些方法部分解决了特征交互的问题,但仍有其局限性。总体而言,现代融合方法在最优利用模态特征和突出关键信息方面存在困难,这表明需要改进模态连接并对关键图像细节加以重视。
Mamba[11]技术的进步为在全球感受野和计算效率之间实现平衡提供了一条有希望的途径。通过将Mamba的离散状态空间方程形式化为递归形式,并融入特别设计的结构重参化[19],其能够模拟非常长的依赖关系。此外,并行扫描算法[15]的实施使得Mamba能够以并行方式处理每个标记,从而便于在现代硬件(如GPU[4])上进行高效训练。这些鼓舞人心的特性激励作者进一步探索Mamba在图像融合网络中对高效长距离建模的潜力。
针对上述问题,作者的研究设计了一个新的动态特征增强模型——带有Mamba的多模态图像融合,旨在更好地探索模内和模间特征,同时动态地增强源图像的细节纹理信息以及每种模态的特异性信息。具体来说,对于网络的特征提取和重建部分,作者设计了一个适合融合任务的Mamba模型,该模型通过集成视觉状态空间模型以及动态卷积和通道注意力,不仅保持了Mamba的性能和全局建模能力,而且减少了通道冗余,增强了局部特征提取能力。
在特征融合部分,作者设计了一个动态特征融合模块,包括动态特征增强模块和跨模态融合Mamba模块。与之前的特征融合方法不同,该融合模块动态地增强源图像中的细节纹理信息和差异信息,并促进模态间更好的信息交互。动态特征增强模块(DFEM),由动态微分卷积和动态差异感知注意力组成,用于自适应特征增强。DFEM模块通过在不同模态的输入特征间建立联系,动态地增强关键信息。作者设计了一个跨模态融合Mamba模块,以有效地挖掘模态间的相关性信息。作者的网络架构采用Unet [34]多层结构,实现了一个高效且通用的图像融合框架。实验结果表明,作者提出的方法在多个多模态基准数据集上的多种评估指标上,包括红外-可见光融合、CT-MRI融合、PET-MRI融合、SPECT-MRI融合以及GFP-PC融合,均优于现有的(SOTA)图像融合方法。
总之,作者的贡献包括:
作者设计了一种新颖的动态特征增强的Mamba图像融合模型,这是第一种改进的状态空间模型用于图像融合,为基于CNN和Transformers的方法提供了一种简单而有效的替代方案。
作者提出了动态视觉状态空间(Dynamic Visual State Space, DVSS)模块,它通过动态增强局部特征并减少通道冗余,提升了标准Mamba模型的效率。这种增强加强了其建模和特征提取能力。
特征融合模块从源图像中提取关键信息,并探索不同模态之间的关系。它包含一个动态特征增强模块,用于增强细微的纹理特征并感知差异特征,以及一个跨模态Mamba融合模块,用于有效地探索跨模态之间的相关性。
作者开发了一个高效且多功能的图像融合框架,在包括红外与可见光融合、多模态医学图像融合以及生物医学图像融合在内的各种图像融合任务中取得了领先性能。
Deep Multimodal Image Fusion
图像融合作为一种关键的图像增强技术,近年来受到了广泛关注。在深度学习时代,主要的图像融合方法可以分为四类:卷积神经网络(CNN)模型,生成对抗网络(GAN)模型,基于自编码器(AE)的模型,以及基于Transformer架构的模型。这些方法通常采用简单的融合规则,如元素相加、平均或相乘。尽管这些卷积方法可以实现令人满意的融合结果,但由于固有的卷积限制,它们在提取全局特征方面的能力有限。Ma等人引入了一种端到端的GAN模型,名为FusionGAN,其中源图像输入到生成网络,融合结果由判别网络生成。
随后,他们提出了一个双判别器条件生成对抗网络(DDCGAN)[20],该网络使用两个判别器来辨别融合图像与两个源图像之间的结构差异。尽管GANs表现出强大的性能,但它们的训练过程可能不稳定,由于需要使用双判别器平衡多源图像,可能导致潜在的纹理失真,难以实现稳定的融合结果。基于自编码器(AE)的模型需要一个融合规则来整合从编码器提取的特征,并通过解码器生成融合结果。例如,RFN-Nest[30]引入了两阶段学习策略和自定义融合方法。此外,研究者们还探索了基于Transformer的方法,IFT[11]和CDDFuse[22]有效地将CNN与Transformer架构相结合。SwinFusion[13]利用SwinTransformer独特的滑动窗口注意力机制来解决卷积融合方法中的限制。
状态空间模型(SSMs)[7]已经成为深度学习中的具有竞争力的基础架构,起源于经典的控制理论,并能提供与序列长度成线性扩展的能力,以建模长距离依赖关系。结构化状态空间序列模型(S4)和Mamba [22]都依赖于一个经典的连续系统,这个系统将一个一维的输入函数或序列,表示为
a
(
t
)
∈
R
−
a(t) \in \mathbb{R}^-
a(t)∈R−,通过中间的隐式状态
h
(
t
)
∈
R
−
h(t) \in \mathbb{R}^-
h(t)∈R−映射到一个输出
y
(
t
)
∈
R
−
y(t) \in \mathbb{R}^-
y(t)∈R−. SSMs可以表示为以下线性常微分方程(ODE) :
h
′
(
t
)
=
A
h
(
t
)
+
B
a
(
t
)
,
h'(t) = Ah(t) + Ba(t),
h′(t)=Ah(t)+Ba(t),
y
(
t
)
=
C
h
(
t
)
+
D
a
(
t
)
y(t) = Ch(t) + Da(t)
y(t)=Ch(t)+Da(t)
在这里,
A
∈
R
N
×
N
A \in \mathbb{R}^{N \times N}
A∈RN×N代表状态矩阵,而
B
∈
R
N
×
1
B \in \mathbb{R}^{N \times 1}
B∈RN×1,
C
∈
R
N
×
1
C \in \mathbb{R}^{N \times 1}
C∈RN×1,以及
D
∈
R
N
D \in \mathbb{R}^{N}
D∈RN表示投影参数。之后,通常将离散化过程应用于实际的深度学习算法中。具体来说,用△表示时间尺度参数,将连续参数
A
A
A,
B
B
B转换为离散参数
A
A
A,
B
B
B。常用的离散化方法[19]是零阶保持(ZOH)规则,定义如下:
A
=
exp
(
Δ
A
)
,
A = \exp(\Delta A),
A=exp(ΔA),
B
=
(
Δ
A
)
−
1
(
exp
(
Δ
A
)
−
I
)
⋅
A
B
B = (\Delta A)^{-1}(\exp(\Delta A) - I) \cdot AB
B=(ΔA)−1(exp(ΔA)−I)⋅AB
在离散化之后,具有步长△的方程
(
1
)
(1)
(1)的离散版本可以重写为以下RNN形式:
h
k
=
A
h
k
−
1
+
B
w
k
,
h_k = Ah_{k-1} + Bw_k,
hk=Ahk−1+Bwk,
y
k
=
C
h
k
+
D
a
k
y_k = Ch_k + Da_k
yk=Chk+Dak
此外,方程
(
3
)
(3)
(3)也可以在数学上等价地转换成以下卷积神经网络(CNN)形式:
y
=
x
∗
k
(
C
B
,
C
A
B
,
.
.
.
,
C
A
T
B
)
y = x * k(CB, CAB, ..., CATB)
y=x∗k(CB,CAB,...,CATB)
在公式中,*表示卷积操作,
k
∈
R
−
k \in \mathbb{R}^-
k∈R−是一个结构化的卷积核,而
L
L
L表示输入序列
x
x
x的长度。
Mamba在自然语言任务上取得了显著进展,超越了传统的Transformers,这得益于其数据依赖机制、高效的硬件和卓越的语言处理能力。除了扩展语言任务之外,Mamba也成功地被应用于视觉任务,如图像分类、视频理解和生物医学图像分割。这一成功激发了研究浪潮,专注于将基于Mamba的模型适应于专门的视觉应用,包括通过类似Vm-unet(Zhu等人,2017年)的适应进行医学图像分割。此外,Mamba还整合到了图表示任务中,通过模型增强图的嵌入和处理能力。Mamba的通用性和效率使它成为从语言处理到计算机视觉表示任务等多种应用的吸引选择(Mamba,2018)。
Motivation
本文的动机在于解决多模态图像融合领域中的常见问题和挑战。近年来,随着深度学习方法在图像特征提取方面强大能力的认可,许多融合算法应运而生。然而,当前主流的卷积神经网络(CNNs)在图像融合方面存在固有的局限性,这促使作者深入探讨并设计一个新的动态特征增强模型来应对这些挑战和问题。
一方面,当前的融合方法主要使用静态卷积层进行特征提取和重建,这在捕捉细致的空间差异和全局上下文信息方面存在限制。另一方面,Transformer模型在全球建模方面表现优异,但其由于自注意力机制导致的图像尺寸的二次复杂度限制了其计算效率。此外,与CNN相比,它们在捕捉局部特征方面的精确度也较低。而且,现有的融合方法在特征融合方面也有所不足,无法有效地从不同模态中提取特征,导致融合性能下降。
因此,作者的动机是设计一个新的动态特征增强模型,该模型结合了Mamba模型在全球感受野和计算效率方面的优势,以及动态特征增强和跨模态融合策略。目标是更好地探索多模态图像融合中的内部特征和跨模态关系,提高融合性能,并克服当前方法的局限性。
图2:框架概览。FusionMamba网络接收两种不同模式的两幅图像作为输入。这些图像通过融合模块进行多层特征提取和动态特征增强融合,产生包含差异和纹理增强的融合特征。最后,该模块重构融合结果。
Overview
作者的FusionMamba在通用融合过程中包含三个关键组件:特征提取、特征融合和特征重建。网络架构基于Unet框架,以有效提取更深层次的特征。如图2(a)所示,特征提取和重建阶段均使用了设计的动态视觉状态空间(DVSS)模块。特征融合阶段采用动态特征融合模块(DFFM,见图3)。动态增强融合模块的每一层包含两个动态特征增强模块(DFEM)和一个跨模态融合Mamba模块(CMFM)。因此,在本节中,作者将重点介绍设计的动态视觉状态空间模块、动态特征增强模块和跨模态融合Mamba模块。
Dynamic Vision State Space Module
作者提出了动态视觉状态空间(Dynamic Vision State Space, DVSS)模块,作为对图像融合处理中SSM块的改进。在图2(b)中,从输入的深度特征开始,作者首先应用层归一化(LayerNorm, LN),然后使用高效状态空间模块(Efficient State Space Module, ESSM)(()) 来捕捉空间上的长期依赖关系。
由于SSMs将扁平化的特征图作为1D Token 序列处理,所选择的扁平化策略显著影响了序列中相邻像素的数量。例如,在使用四方向展开策略时, Anchor 点像素只能访问到四个最近的邻居。特别是,高效的2D扫描(ES2D,如图2(e)所示)有效地使用跳过采样缩减了2D-选择性扫描(SS2D),并结合处理后的 Patch 进行全局特征提取。因此,在2D特征图上空间上接近的像素在1D Token 序列中可能变得彼此距离较远,这可能导致局部像素遗忘。为了解决这个问题,作者在ES2D之后引入了一个额外的动态局部卷积(())来恢复邻居相似性。可学习的描述性卷积(LDC,如图2(f)所示)有效地学习复杂的纹理特征,使其在这里非常适用。作者使用LayerNorm进行规范化,然后利用可学习的描述性卷积(LDC)(())来补偿局部特征。
此外,SSMs通常引入更多隐藏状态来记忆非常长的依赖关系,这在可视化不同通道的激活结果时导致了显著的通道冗余(())。为了增强不同通道的表达能力,作者将高效通道注意力(ECA,如图2(g)所示)(())整合到DVSS中。这使得SSMs能够专注于学习多样化的通道表示,随后的通道注意力选择关键通道以防止冗余。DVSS的表达式为:
其中
F
F
F代表第
n
n
n层的特征图,而
F
t
+
1
F_{t+1}
Ft+1是下一级输入的特征。ESSM ()、LDC()和ECA()分别如Fig. 2©、Fig. 2(f)和Fig.(g)中所示,表示ESSM、LDC和ECA操作。
| Dynamic Feature Enhancement Module
动态特征增强模块(例如DFEM1,如图4所示),旨在通过动态特征增强机制自适应地改进纹理细节特征,并动态地感知不同模式之间的差异。具体来说,DFEMq接收两种不同模式特征(
F
1
F_{1}
F1,
F
2
F_{2}
F2)作为输入,在模块中执行粗粒度融合特征(
F
7
F
F_{7F}
F7F)。通过从不同模态特征中相减来获得差异特征,增强这些差异特征的映射。随后,将这些差异特征与原始特征合并,用额外的模态补充信息丰富差异特征。这个过程有效地提取并放大图像中固有的互补特征和纹理细节,从而提高整体融合性能。
在模块内,可学习描述卷积(LDC)模块通过使用可学习的 Mask 参数和卷积操作,增强输入特征图上的纹理处理。通过调整卷积核的权重,它强调了纹理信息,从而提升了模型对纹理特征的感受。相反,动态差异感知注意力计算输入特征图之间的差异权重,并将它们应用于融合特征和原始特征,放大特征间的差异。这种方法帮助模型有效捕捉输入特征间的细微差异,从而在不同特征间提升了解析度和感知,有助于增强模型的融合性能。最后,DFEM将纹理增强特征、差异增强特征和低频特征()与背景信息结合,输出。
动态特征增强模块(DFEM,如图4所示)输出的特征进一步被送入跨模态融合Mamba(CMFM,如图5所示)模块,用于进行细粒度的融合和探索信息之间的相关性。
不同模态的增强特征(
D
1
D_1
D1,
D
2
D_2
D2)首先被混合,以生成混合特征
H
′
′
H''
H′′:
H
′
′
=
D
w
c
(
L
i
n
e
a
r
(
D
1
)
)
∘
D
w
c
(
L
i
n
e
a
r
(
D
2
)
)
∘
D
3
H'' = D_{wc}(Linear(D_1)) \circ D_{wc}(Linear(D_2)) \circ D_3
H′′=Dwc(Linear(D1))∘Dwc(Linear(D2))∘D3
在这里,
D
w
c
(
)
D_{wc}()
Dwc()表示深度可分卷积操作。“
∘
\circ
∘"和”+"分别指元素乘法和加法操作。
这些混合增强特征随后被输入到高效空间扫描2D(ES2D)(Chen等人,2017)层中,以捕捉空间长期依赖性。
H
=
L
N
(
E
S
2
D
(
S
i
L
U
(
H
′
′
)
)
)
H = LN(ES2D(SiLU(H'')))
H=LN(ES2D(SiLU(H′′)))
S
i
L
U
(
L
i
n
e
a
r
(
D
t
)
)
SiLU(Linear(D_t))
SiLU(Linear(Dt))
=
L
N
(
E
S
2
D
(
S
i
L
U
(
H
′
)
)
)
=LN(ES2D(SiLU(H')))
=LN(ES2D(SiLU(H′)))
S
i
L
U
(
L
i
n
e
a
r
(
D
2
)
)
,
H
′
=
H
∘
H
′
SiLU(Linear(D_2)), H' = H \circ H'
SiLU(Linear(D2)),H′=H∘H′
输出特征通过一个通道注意力模块(ECA)以减少通道冗余,最终得到融合后的特征图(
X
n
X_n
Xn):
H
′
′
=
E
C
A
(
L
N
(
H
)
)
⊙
D
D
B
H'' = ECA(LN(H)) \odot D_{DB}
H′′=ECA(LN(H))⊙DDB
Loss Function
为了确保在训练过程中提取有意义的信息,作者引入了三种类型的损失函数:强度损失
L
i
n
t
L_{int}
Lint,纹理损失
L
t
e
x
t
L_{text}
Ltext,以及结构损失
L
s
i
m
L_{sim}
Lsim。总损失
L
t
o
t
a
l
L_{total}
Ltotal可以表示如下:
L
t
o
t
a
l
=
α
1
L
i
n
t
+
α
2
L
t
e
x
t
+
α
3
L
s
i
m
L_{total} = \alpha_1 L_{int} + \alpha_2 L_{text} + \alpha_3 L_{sim}
Ltotal=α1Lint+α2Ltext+α3Lsim
其中
α
1
\alpha_1
α1,
α
2
\alpha_2
α2和
α
3
\alpha_3
α3是用于控制
L
i
n
t
L_{int}
Lint,
L
t
e
x
t
L_{text}
Ltext和
L
s
i
m
L_{sim}
Lsim之间权衡的权重。
整合更多的纹理细节对于提升视觉效果至关重要。作者使用梯度损失来确保更多细粒度细节的保留,其定义如下:
L
t
e
x
t
=
w
∣
∣
lvI
−
max
(
V
∣
I
∣
,
v
∣
I
2
∣
)
∣
∣
1
L_{text} = w || \text{lvI} - \max(\mathbf{V}|I|,v|I_2|)||_1
Ltext=w∣∣lvI−max(V∣I∣,v∣I2∣)∣∣1,
通常,源图像中包含大量的强度信息和对比度信息。作者采用强度损失来确保保留适当的强度信息。它可以定义为:
L i n t = w ∣ ∣ I r − max ( I 1 , I 2 ) ∣ ∣ 2 L_{int} = w ||I_{r} - \max(I_1,I_2)||_2 Lint=w∣∣Ir−max(I1,I2)∣∣2
SSIM可以测量两幅图像之间的失真程度和相似度(Beng等人,2017年)。作者使用SSIM损失来确保融合图像与源图像之间的结构相似性。它可以定义为:
L s s i m = β ( 1 − SSIM ( I 1 , I ) ) + γ ( 1 − SSIM ( I 2 , I ) ) L_{ssim} = \beta(1 - \text{SSIM}(I_1,I)) + \gamma(1 - \text{SSIM}(I_2,I)) Lssim=β(1−SSIM(I1,I))+γ(1−SSIM(I2,I))
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。