当前位置:   article > 正文

【红外与可见光图像融合】Semantic perceptive infrared and visible image fusion Transformer_rgb与ir图像融合

rgb与ir图像融合

大多数方法关注到了全局信息建模和局部特征,但很少考虑到语义信息的建模,这可能导致信息保持不充分。
我们提出的SePT使用CNN提取局部特征,并通过Transformer学习长距离依赖,同时,设计了两个语义信息建模模块,学习高级语义信息。结果表明,所提出的两个语义建模模块分别将浅层特征映射为深层语义,并从不同的感受野中提取语义信息。
本文在一个新的RGB数据集M3FD上做了扩展实验,除了对比CNN,GAN-based的方法外,还对比了两个Transformer-based的方法和一个同样考虑到语义信息建模的方法SeAFusion。
本文选择的客观指标也没有选择几个特别常见的,同时对提出的几个模块做消融实验时,由于指标没有提升多少甚至有降低,所以没有加黑,但主观图是有提升的。
代码未公开。
选自Pattern Recognition。

1、Motivation

(1)基于CNN和GAN的方法具有较强的局部特征表示能力,但远程依赖学习能力较弱。这可能导致对融合图像至关重要的全局纹理的缺失。
(2)这些方法很少考虑深层语义信息,这可能导致融合过程中源图像信息保留不足。

作者说,一些图像融合研究将图像语义引入融合框架。

他们设计了一个信息量判别块来确定保留语义对象特征的权重,从而可以在特定的监督损失下很好地训练鉴别器和生成器。

但这些方法侧重于利用语义信息形成语义相关损失来指导融合过程,而很少考虑对其进行建模或其他操作。

2、网络结构

在这里插入图片描述
网络包括四个部分,局部特征提取模块,长距离建模模块,深度语义信息建模模块,宽度语义建模模块。

在特征提取 方面,IR和VIS是两个分支,分别提取不同模态的特征,作者也解释说

为了从两幅不同模态的源图像中充分提取信息,将两幅源图像作为两个独立的输入发送到网络中。

局部特征提取部分:

就是5个conv层,作者分开命名为,浅层特征提取,中层特征提取,深层特征提取。
在这里插入图片描述

长距离学习部分:

在这里插入图片描述
就是最基本的transformer块,考虑到计算效率。Transformer Encoder的层数设置为6。多头设置为4.

深度语义建模模块:

在这里插入图片描述
经过局部提取部分,提取到的浅层特征主要是颜色和边缘信息,因此我们设计深度语义建模模块为了提取高级语义特征。
在这里插入图片描述
其实也是基本的Transformer块,只不过这里叫Depth Transformer Encoder,特别的是,输入有变换。
在这里插入图片描述
两个分支都是拿第一层(浅层特征作为Q),分别和中层和深层特征的KV点乘。

宽度语义建模模块

作者说虽然很多工作使用Transformer来捕获全局信息,他们很少考虑到输入Transformer的特征的感受野。这可能造成一些关键信息的丢失,受《SDTP: Semantic-aware decoupled transformer pyramid for dense image prediction, IEEE Trans. Circuits Syst. Video Technol》启发,我们提出了Width semantic-modeling 模块。

具体来说,就是把局部特征提取的第三层也就是最后一层特征分别送入扩张卷积,扩张系数分别设置为1,2,5,然后送入Transformer blocks。
在这里插入图片描述

在这里插入图片描述
这是3各分支的意义,在这里插入图片描述

融合以上获得的特征。

首先把来自Depth semantic modeling和Width semantic modeling的输出concat,然后经过一系列卷积(组成跟局部特征提取模块一样,3个卷积)最后得到的结果和局部特征提取模块得到的输出和全局特征(即长距离建模模块的结果)concat,送入重建块,同样也是几个卷积。

3、损失

我们提出的SePT network旨在挖掘深层语义信息,促进远程依赖关系与局部特征之间的相互作用,以提高融合质量,相应的设计了以下损失。

设计的很简单,SSIM和强度损失。
在这里插入图片描述

在这里插入图片描述
对于红外图像的热信息,采用像素强度有效表达,引入强度损失对输出进行约束,以保留更多的红外目标信息。强度损失定义为:
在这里插入图片描述
这个强度损失跟其他论文使用的也有所区别,这里只用融合图像和IR图像作差,没使用到VIS图像。

4、实验结果分析

TNO,RoadScene训练
在这里插入图片描述
作为额外的测试集。该数据集涵盖了四种主要场景,包括不同的环境、光照、季节和天气,具有广泛的像素变化

客观指标
mutual information (MI), MI reflects the quantity of information that the result reserves.
structural similarity index measure (SSIM), SSIM describes the images from brightness, contrast and structure perspective.
peak signal-to-noise ratio (PSNR), evaluates the ratio of crucial information and noise, therefore, it can measure the distortion of the results.

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/521782
推荐阅读
相关标签