【红外可见光融合】CrossFuse: A novel cross attention mechanism based infrared andvisibleimage fusion approach

作者：繁依Fanyi0 | 2024-04-25 11:06:02

踩

crossfuse: a novel cross attention mechanism based infrared and visible imag

本文指出，多图像融合任务的结果应尽量包含更多的互补信息和更少的冗余信息，互补信息很难提取，VIS和IR图像存在较大的差距，尤其更难提取。
常见的交叉注意力仅仅考虑相关性，图像融合任务需要关注互补信息(不相关性)–这一点【】也提到了，也是那篇文章的出发点。但是这两篇文章对于不相关信息的提取有区别。
因此，我们提出了cross attention mechanism (CAM)，增强互补信息。
两阶段训练策略，auto-encoder，然后固定住encoder，再训练CAM和decoder。
设计了新的损失函数，RGB可见光做了实验，选取的主流客观指标，达到了SOTA。
选自Information fusion，代码即将公开。

1、Motivation

之前的方法主要集中在自我注意力机制上，而忽略了各种模式之间的相互作用。然而，不同模态之间的互补信息是多模态融合任务的关键，因此交叉注意力应得到更多的重视。
TR要么只在特征提取阶段使用，要么只在重建阶段使用。即使在融合阶段使用了TR，没有解决关键问题，即self-attention可能降低互补信息的问题。
也有一些文章把cross-attention和transformer结合，但他们还是仅仅只关注到了相关性，忽视了互补信息。

在这里插入图片描述

基于transformer的方法只聚焦自注意力机制，这是transformer的主要组成部分。这种机制虽然可以提高输入之间的相关性，但也可能减少互补信息。

作者说，在特定情况下，错误地处理特征相关性可能导致融合性能下降，因此我们提出CAM，

CAM employs self-attention to enhance the intra-features of each modality while utilizes cross-attention based architecture to enhance the inter-features (complementary information) between different modalities.

intra-features 和 inter-features这两个表达应该是学习的SwinFusion里的表达，就是通过self-attention增强单模态内部的相关性，通过cross-attention增强多模态之间的互补信息融合，减少冗余信息。

2、网络结构

在这里插入图片描述

2.1 encoder结构

本文使用的是两阶段训练策略，作者说，考虑到两种模态(红外和可见光)之间的差距，提取不同参数的特征是很自然的。
用于VIS和IR的encoder具有相同的结构但具有不同的参数，就是分两个之路分别提取特征。

在这里插入图片描述
作者说，为了增强细节信息和显著性特征，使用了两个跳跃连接到decoder。

2.2 CAM的结构

在这里插入图片描述
这里使用self-attention的时侯，也是两个分支，分别进一步提取特征。第一个SA用来增强域内特征。
为了进一步增强域内特征，在CAM中还引入了移位shift操作，将特征的位置进行水平和垂直移动。这个shift思想应该是借鉴SwinFusion的思想。
然后第二个SA用来增强shift后的特征图，shift之后的特征图含有更多的全局信息
之后unshift操作，再使用CA进行跨领域的信息交互。
SA的公式：
在这里插入图片描述
CA的公式：

SA和CA的主要区别在于，在矩阵相乘后的激活函数。对于不同的模态，应该增强互补(不相关)信息而不是冗余(相关)特征。因此，我们将一个新的激活函数，反向softmax(声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/484937