赞
踩
本文是一篇基于Transformer的VIF,对于CNN-based的方法的介绍也是提到了,CNN以一个固定的卷积核捕获局部信息,堆叠卷积层用于特征提取,但这样会损失细节和背景信息。
提出的cross-modal transformer在空间域和通道域实现了信息的交互,去除了IR和VIS的冗余信息。
实验表明,性能达到了SOTA,同时,也用于下游任务。
本文所引用的块:
RFDB出自Residual feature distillation network for lightweight image super-resolution
gated bottleneck出自Attention bottlenecks for multimodal fusion
SFC出自Self-fusion convolutional neural networks,
仅仅使用transformer捕获了全局交互信息,但缺少了局部元素的交互,虽然已经有了一些CNN和transformer结合的工作,但计算成本太高。因此我们致力于减少参数量。
首先把VIS和IR分别经过几个3×3的卷积层,提取多层特征,然后送入Refinement branch,在这个模块中,进行信息的整合
由好几个块组成。
首先是,把L层的VIS和IR特征图分别和 L+1层的特征concat,同样先conv下,在进入RFDB,以学习到更具判别性的特征,然后经过CMT模块去除冗余信息,最后在各自层分别得到融合结果。
注:L+1层的特征图经过上采样与L层的特征concat。
不仅要在单幅图进行全局交互,VIS和IR图像的全局交互也很重要。同时,现有的Transformer-based method都是只在空间域使用transformer,我们在通道域也使用了transformer。综合使用,以期从源图像中提取互补特征
空间域上:作者这么里学到的注意力图是
使用了减法,最终得到的是不相关性图,全篇也一直在使用去除冗余信息的字眼,大概就是这个意思吧。
这里注意力图维度是HW×1,然后再reshape成H×W×1,原特征图是H×W×C,再逐元素相乘,相当于拿一张注意力图去×C个通道的特征图,这远远不够,因此有了后面与通道域的交互。
通道域同理。
在通道域和空间域分别去除完冗余信息后,作者说independent transformers may fail to effectively extract complementary information in a scene.然后又引用了其他人的工作,based on the observation that the information bottleneck can effectively exchange cross-modal information提出了gated bottleneck
实现了信息的交互
这里作者又说,可以直接的conv重建,但是这样可能没有捕获refined feature maps的交互信息,又使用了其他人的工作SFC
每一层特征分别得到一个融合结果
第一项:
逐元素,两个参数是固定的,不可学习
第二项:
为了保持空间特征,使用了一篇低光图像里的损失
《Learning to enhance low-light image via zero-reference deep curve estimation》
第三项:
感知损失,使用VGG-16提取的特征,分别在2.4.6层提取特征
第四项:
为了保持高频信息和纹理细节,使用了傅里叶,出自
《Fourier features let networks learn high frequency functions in low dimensional domains》
所有的平衡vis和ir特征占比的超参都设置为0.5
在综合使用空间域和通道域transformer后,进一步使用gated bottleneck得到了更好的结果,这说明GB通过跨领域的信息交互增强了特征表示。
SFC参数量少,同时获得了最好的效果。
这里的MBConv出自EfficientNetv2: Smaller models and faster training
加入感知损失后,使得模型保留了高级的上下文信息。
加入频率损失后,使得模型减轻了原图像和融合图像的差异。
对于感知损失,使用VGG-16比19更好,作者解释说,VGG-19 degrades the fusion performance because it focuses on global semantic representation rather than local features.
从VGG第2,4,6层提取特征用于计算损失,这边没有进行说明。
These results indicate that the proposed algorithm provides a superior performance-complexity trade-off to that of conventional algorithms
Specifically, the proposed algorithm yields 5.39 and 5.96 higher mAP values than the second-best algorithms DDcGAN and U2Fusion on KAIST and RoadScene, respectively. Finally, it should be noted that only the fusion results of the proposed algorithm show higher mAP values than the visible images on both datasets
This indicates that the proposed algorithm has great potential to improve subsequent computer vision performance.
作者说
作者说
很多算法在这种图上的效果应该都不算太好。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。