多模态特征融合新突破！5大方法刷新顶会SOTA！_多模态融合

作者：代码探险家 | 2024-08-03 17:42:40

踩

多模态融合

多模态融合可以应用于情感分析、身份验证、行为识别等多个领域，实现更精确的预测和判断。这其中，特征融合是多模态数据处理的核心环节，它不仅能够提高模型的性能，还能够增强数据的表达力，让模型能够更好地理解和处理现实世界中的复杂问题。因此，多模态特征融合迅速成为了研究热点。

为帮助同学们深入了解该方向，获得论文灵感，本文介绍多模态特征融合5种常用方法，并附上每种方法的代表性论文和最新成果（11篇），开源代码也整理了，方便各位理解并实践。

论文与代码需要的同学看文末

1.基于因果注意力

An Explainable Attention Network for Fine-Grained shipClassification Using Remote-Sensing Images

方法：论文提出一种可解释的注意力网络，用于细粒度船舶分类。该网络旨在增加对对象区分部分的关注，并探索多个注意力部分与预测结果之间的内在关系。通过结构因果模型将多头注意力机制与因果推断相结合，生成几个因果多头注意力图。将网络最后一层的卷积滤波器分为几个组，每个组根据滤波器损失函数表示特定的语义信息。

创新点：

通过使用深度卷积神经网络提取输入图像的高级特征，从而实现对船只的细粒度分类。
提出了一个新的解释性注意力网络，由CMAM和FAM两部分组成，用于生成可解释的图像特征。
利用卷积层从高级特征图中获取多个注意力图，实现对船只图像的细节部分的关注。

2.基于线性

CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion

方法：本文提出了一种双分支Transformer-CNN架构，用于多模态图像融合。通过Restormer、Lite transformer和可逆神经网络模块的帮助，可以更好地提取模态特定和共享特征，并且通过提出的基于相关性的分解损失，对它们进行更直观和有效的分解。

创新点：

提出了一个双分支Transformer-CNN架构，用于多模态图像融合。该架构利用Restormer、Lite transformer和可逆神经网络块，更好地提取了特定于模态和共享的特征，并通过所提出的相关驱动分解损失更直观和有效地对它们进行了分解。
采用可逆神经网络（INN）的建模块来解决丢失高频输入信息的挑战。INN通过设计实现了反演性质，防止了信息在输入和输出特征之间的丢失，并与我们保留融合图像中高频特征的目标相一致。

3.基于双线性

Improving Few-Shot Remote Sensing Scene Classification With Class Name Semantics

方法：论文提出了一种新的基于原型网络的FSRSSC方法，称为改进的具有类名语义的原型网络（CNSPN）。CNSPN首先使用预训练的词嵌入模型提取类名的语义信息，从数据源丰富了类别的特征表示能力。然后，通过多模态原型融合模块（MPFM），将文本的语义信息和图像的视觉信息融合生成增强的融合原型。最后，通过测量查询样本与视觉原型以及融合原型之间的距离，对查询图像进行分类。

创新点：

CNSPN模型：提出了一种新的FSRSSC模型，即基于原型网络的改进原型网络与类名语义(CNSPN)。该模型利用类名的语义信息来丰富类别的特征表示能力，并通过多模态原型融合模块(MPFM)将文本的语义信息与图像的视觉信息进行融合，生成增强的融合原型。
类名语义信息：利用预训练的词嵌入模型提取类名的语义信息，使得类别的特征表示更加丰富。通过融合图像的视觉特征和类名的语义特征，生成增强的融合原型，通过监督查询样本的方式有效地增强了视觉特征提取器的能力。

4.基于多层特征嵌入

Video Understanding-Based Random Hand Gesture Authentication

方法：本文主要研究了随机手势认证中的随机手势认证模型压缩方法。由于现有方法的参数数量过大，无法直接部署在移动设备上，因此引入了知识蒸馏方法来压缩Temporal Difference Symbiotic Neural Network (TDS-Net)模型。通过使用知识蒸馏方法，成功地减少了学生模型的参数数量，而平均等错误率仅略微增加。此外，通过对注意力模块的研究和改进，进一步提升了知识蒸馏的性能。

创新点：

使用知识蒸馏方法压缩TDS-Net并获得更轻量级的学生网络，以平衡计算成本和模型性能。
重新设计了KDKR的基于注意力的融合模块，进一步提高了蒸馏性能。

5.基于交叉注意力

DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection

方法：如何有效地融合激光雷达和摄像机数据进行多模态三维物体检测？作者提出了InverseAug和LearnableAlign两种技术来实现深度特征的对齐，从而实现准确和稳健的三维物体检测。开发了一种名为DeepFusions的简单、通用且有效的多模态三维检测器，其在Waymo开放数据集上取得了最先进的性能。

创新点：

提出了两个技术：InverseAug和LearnableAlign，用于实现多模态特征的有效对齐
开发了一种名为DeepFusions的多模态3D检测器，通过深度特征融合在现有的3D检测框架上取得了最先进的性能
在Waymo开放数据集上取得了最先进的性能，成为了第一个系统研究深度特征对齐对于3D多模态检测器影响的研究论文

关注下方《学姐带你玩AI》

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/代码探险家/article/detail/924143

推荐阅读

相关标签