赞
踩
基于卷积神经网络(CNN)的方法由于其有限的感受野,难以捕获全局上下文,这使得生成高质量的融合图像变得具有挑战性。
基于自编码器(AE)的特征提取或图像重建在设计能够捕获模态特定和共享特征的编码器时面临挑战。
基于生成模型的方法,如生成对抗网络(GANs)和扩散模型,虽然能够生成高质量的融合图像,但在完成融合任务时可能不够高效。GANs的训练不稳定、缺乏可解释性以及模式崩溃是影响其生成能力的关键问题。扩散模型虽然在图像生成中取得了显著成功,但在多模态图像融合任务中面临的挑战是高计算成本,导致训练和推理时间较长,影响了融合过程的效率。
基于Transformer的方法虽然在全局建模方面表现出色,但由于自注意力机制导致的资源与token数量呈二次方增长,使得计算开销显著,效率较低。
提出了首个利用Mamba进行MMIF的模型,这是一个替代CNN和Transformers的有效且高效的解决方案。
设计了一个双层次特征提取器,用于捕获低层次和高层次的模态特定特征以及长距离信息,这些特征包括突出的物体、环境光照和纹理细节。
提出了一个双相特征融合模块,以获取具有全局概览和局部细节信息的模态融合特征。具体来说,使用通道交换方法进行浅层融合,并设计了M3块用于深层融合。
在红外-可见光图像融合(IVF)和医学图像融合(MIF)任务中取得了领先的图像融合性能,并且在统一的基准测试中证明了IVF融合图像如何促进下游目标检测任务。
双层次特征提取(Dual-level Feature Extraction):从不同的图像模态中提取有用的特征。使用卷积神经网络(CNN)层来提取图像的局部特征,比如边缘和纹理。这些信息通常在图像的视觉处理初期非常有用。由于CNN对全局信息的捕捉有限,这里使用Mamba块来进一步提取更高级的特征,这些特征能够捕捉图像中的长距离依赖关系。
双相特征融合(Dual-phase Feature Fusion):将不同模态的图像特征结合起来,形成融合特征。浅层融合采用手动设计的融合策略来获得初始融合特征。深层融合使用设计好的多模态Mamba(M3)块,这些块能够利用各自的模态特征来指导生成融合特征,从而保留更多的局部细节。
融合图像重建(Fused Image Reconstruction):将融合后的特征转换回图像。使用Mamba块对融合特征进行处理,然后通过反卷积层(unpatch-embedding)和卷积层来重建最终的融合图像。
浅层融合的目的是快速地将不同模态的全局信息结合起来,形成一个初始的融合特征。这个阶段使用了一个简单的通道交换方法,具体步骤如下:
通道交换:对于两种不同模态的图像特征(例如,红外图像和可见光图像的特征),通过通道交换的方式,使得每种模态的特征能够包含另一种模态的全局信息。
特征整合:交换后的特征通过各自的Mamba块进行处理,以整合来自另一种模态的信息。
融合操作:通过一个融合操作(如加法或L1归一化)将处理后的特征结合起来,生成一个包含多模态全局信息的初始融合特征。
深层融合的目标是进一步融合来自不同模态的局部细节特征,以增强融合图像的质量和细节。这个阶段使用了多模态Mamba(M3)块,具体步骤如下:
特征输入:输入是浅层融合得到的初始融合特征,以及来自两种不同模态的其他特征。
层归一化和激活:对输入特征进行层归一化,并通过MLP和卷积操作生成中间特征。
状态空间模型:使用状态空间模型(SSM)来进一步处理这些中间特征,捕捉不同模态之间的长期依赖关系。
门控调制:通过门控机制对特征进行调制,这有助于模型专注于更重要的信息。
特征融合:将调制后的特征与原始分支的输出相加,生成最终的融合特征。
重复和堆叠:通过重复和堆叠M3块,可以逐步细化和增强融合特征的局部细节。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。