赞
踩
在人工智能领域,多模态融合正迅速成为研究的热点,它涉及到将不同类型的数据,如文本、图像、音频等,整合到一个统一的模型中,以实现更丰富和深入的理解。2024年,随着技术的不断进步,多模态融合的研究也呈现出了一些新的方向和突破。
今天就整理了21篇2024年目前顶会录用的多模态融合论文,这些论文涵盖了多模态融合的最新进展和创新成果,一起看看吧!
MESED:具有细粒度语义类和硬否定实体的多模态实体集扩展数据集
简述:多模态融合面临挑战,本文提出多模态实体集扩展(MESE)以集成多模态信息表示实体。MESE的好处:互补信息、统一信号、同义实体的鲁棒对齐。为评估,构建MESED数据集,它是首个大规模精细的ESE多模态数据集。并提出MultiExpan模型,在4个多模态预训练任务上预训练。MESED实验证明数据集和模型的有效性,为未来研究指明方向。
MmAP :用于跨领域多任务学习的多模态对齐提示
简述:本文提出了一种集成视觉语言模型CLIP的多任务学习框架,该模型具有强大的零样本泛化能力,并开发了多模态对齐提示(MmAP),研究人员在微调过程中对齐文本和视觉模态。通过任务分组和特定任务的MmAP,提高了高相似性任务的互补性,同时保留了每个任务的独特特征。实验表明,该方法在两个大型多任务学习数据集上实现了显著的性能改进,同时只使用了大约0.09%的可训练参数。
LAMM:用于多模态提示学习的标签对齐
简述:本文提出了一种创新的标签对齐方法LAMM,通过端到端训练动态调整下游数据集的类别嵌入,并采用分层损失,包括参数空间、特征空间和对数空间的对齐,以改善标签分布。在11个下游视觉数据集上的实验表明,这种方法显著提升了多模态提示学习模型在小样本场景中的性能,平均准确率比最先进的方法高出2.31%。LAMM在持续学习任务中表现出色,并能与现有提示调优方法协同工作,进一步提升性能。
Structure-CLIP:利用场景图知识增强多模态结构化表示
简述:本文介绍了一个名为Structure-CLIP的端到端框架,该框架集成了场景图知识(SGK)来增强多模态结构化表示,框架通过使用场景图指导语义否定样本的构建,并提出了一个知识增强编码器(KEE)来利用SGK进一步强化结构化表示。实验表明,Structure-CLIP在VG-Attribution和VG-Relationship数据集上实现了最先进的性能,分别领先多模态SOTA模型12.5%和4.1%。在MSCOCO数据集上,该框架在保持一
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。