赞
踩
本文指出,多图像融合任务的结果应尽量包含更多的互补信息和更少的冗余信息,互补信息很难提取,VIS和IR图像存在较大的差距,尤其更难提取。
常见的交叉注意力仅仅考虑相关性,图像融合任务需要关注互补信息(不相关性)–这一点【】也提到了,也是那篇文章的出发点。但是这两篇文章对于不相关信息的提取有区别。
因此,我们提出了cross attention mechanism (CAM),增强互补信息。
两阶段训练策略,auto-encoder,然后固定住encoder,再训练CAM和decoder。
设计了新的损失函数,RGB可见光做了实验,选取的主流客观指标,达到了SOTA。
选自Information fusion,代码即将公开。
基于transformer的方法只聚焦自注意力机制,这是transformer的主要组成部分。这种机制虽然可以提高输入之间的相关性,但也可能减少互补信息。
作者说,在特定情况下,错误地处理特征相关性可能导致融合性能下降,因此我们提出CAM,
CAM employs self-attention to enhance the intra-features of each modality while utilizes cross-attention based architecture to enhance the inter-features (complementary information) between different modalities.
intra-features 和 inter-features这两个表达应该是学习的SwinFusion里的表达,就是通过self-attention增强单模态内部的相关性,通过cross-attention增强多模态之间的互补信息融合,减少冗余信息。
本文使用的是两阶段训练策略,作者说,考虑到两种模态(红外和可见光)之间的差距,提取不同参数的特征是很自然的。
用于VIS和IR的encoder具有相同的结构但具有不同的参数,就是分两个之路分别提取特征。
作者说,为了增强细节信息和显著性特征,使用了两个跳跃连接到decoder。
这里使用self-attention的时侯,也是两个分支,分别进一步提取特征。第一个SA用来增强域内特征。
为了进一步增强域内特征,在CAM中还引入了移位shift操作,将特征的位置进行水平和垂直移动。这个shift思想应该是借鉴SwinFusion的思想。
然后第二个SA用来增强shift后的特征图,shift之后的特征图含有更多的全局信息
之后unshift操作,再使用CA进行跨领域的信息交互。
SA的公式:
CA的公式:
SA和CA的主要区别在于,在矩阵相乘后的激活函数。对于不同的模态,应该增强互补(不相关)信息而不是冗余(相关)特征。因此,我们将一个新的激活函数,反向softmax(声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/484937
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。