当前位置:   article > 正文

多模态融合新方向!21篇2024年最新顶会论文汇总!(附PDF)_2024多模态

2024多模态

在人工智能领域,多模态融合正迅速成为研究的热点,它涉及到将不同类型的数据,如文本、图像、音频等,整合到一个统一的模型中,以实现更丰富和深入的理解。2024年,随着技术的不断进步,多模态融合的研究也呈现出了一些新的方向和突破。

今天就整理了21篇2024年目前顶会录用的多模态融合论文,这些论文涵盖了多模态融合的最新进展和创新成果,一起看看吧!

 AAAI 2024 

1、MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained Semantic Classes and Hard Negative Entities

MESED:具有细粒度语义类和硬否定实体的多模态实体集扩展数据集

简述:多模态融合面临挑战,本文提出多模态实体集扩展(MESE)以集成多模态信息表示实体。MESE的好处:互补信息、统一信号、同义实体的鲁棒对齐。为评估,构建MESED数据集,它是首个大规模精细的ESE多模态数据集。并提出MultiExpan模型,在4个多模态预训练任务上预训练。MESED实验证明数据集和模型的有效性,为未来研究指明方向。

图片

2、MmAP: Multi-modal Alignment Prompt for Cross-domain Multi-task Learning

MmAP :用于跨领域多任务学习的多模态对齐提示

简述:本文提出了一种集成视觉语言模型CLIP的多任务学习框架,该模型具有强大的零样本泛化能力,并开发了多模态对齐提示(MmAP),研究人员在微调过程中对齐文本和视觉模态。通过任务分组和特定任务的MmAP,提高了高相似性任务的互补性,同时保留了每个任务的独特特征。实验表明,该方法在两个大型多任务学习数据集上实现了显著的性能改进,同时只使用了大约0.09%的可训练参数。

图片

3、LAMM: Label Alignment for Multi-Modal Prompt Learning

LAMM:用于多模态提示学习的标签对齐

简述:本文提出了一种创新的标签对齐方法LAMM,通过端到端训练动态调整下游数据集的类别嵌入,并采用分层损失,包括参数空间、特征空间和对数空间的对齐,以改善标签分布。在11个下游视觉数据集上的实验表明,这种方法显著提升了多模态提示学习模型在小样本场景中的性能,平均准确率比最先进的方法高出2.31%。LAMM在持续学习任务中表现出色,并能与现有提示调优方法协同工作,进一步提升性能。

图片

4、Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations

Structure-CLIP:利用场景图知识增强多模态结构化表示

简述:本文介绍了一个名为Structure-CLIP的端到端框架,该框架集成了场景图知识(SGK)来增强多模态结构化表示,框架通过使用场景图指导语义否定样本的构建,并提出了一个知识增强编码器(KEE)来利用SGK进一步强化结构化表示。实验表明,Structure-CLIP在VG-Attribution和VG-Relationship数据集上实现了最先进的性能,分别领先多模态SOTA模型12.5%和4.1%。在MSCOCO数据集上,该框架在保持一

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/697022
推荐阅读
相关标签
  

闽ICP备14008679号