赞
踩
- 论文题目:Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey
- 论文链接:http://arxiv.org/abs/2402.05391
- 项目地址:https://github.com/zjukg/KG-MM-Survey
- 备注:54 pages, 617 citations, 11 Tables, 13 Figures
- 机构:浙江大学,东南大学,牛津大学,爱丁堡大学,曼彻斯特大学,普渡大学
在该综述中,作者重点分析了近三年(2020-2023)超过300篇文章,聚焦于两个主要方向:一是知识图谱驱动的多模态学习(KG4MM),探讨知识图谱如何支持多模态任务;二是多模态知识图谱(MM4KG),研究如何将知识图谱扩展到多模态知识图谱领域。作者从定义KGs和MMKGs的基本概念入手,继而探讨它们的构建和演化,涵盖知识图谱感知的多模态学习任务(如图像分类、视觉问答)及固有的MMKG构建内部任务(如多模态知识图谱补全、实体对齐)。本文还强调了研究重点,提供了任务定义、评估基准,并概述了基本见解。通过讨论当前面临的挑战和评估新兴研究趋势,如大型语言模型和多模态预训练策略的进展,本调研旨在为KG与多模态学习领域的研究人员提供一个全面的参考框架,以及对该领域不断演进的洞察,从而支持未来的工作。
Task
KG4MMR
VQA
IMGC
MMKGOnto
MMKG
MMKG和KG的目标是缓解各种任务中长尾知识的稀缺性,反映了现实世界中频繁共现和人类经验的模式。当前的研究基于一个乐观的假设,即一个无限扩展的MMKG可以包含几乎完整的相关世界知识谱系,提供解决所有多模态挑战所需的必要信息。然而关键问题始终存在:我们如何获得理想的多模态知识?理想的MMKG应具备哪些特征,它是否能准确反映人类大脑对世界知识的高级理解?此外,与LLM的知识能力相比,MMKG是否提供了独一无二、不可替代的好处?探索这些问题对于继续探索这一领域至关重要
(1) MMKG构建目前主要涉及两种范式:用KG符号注释图像或将KG符号固定到图像上。将从多个图像中局部提取的三元组与大规模KG对齐可以看作是上述二者的混合。这种混合方法的优势是双重的:它扩大了图像数量的覆盖范围(第一种范式),还融入了第二种范式特有的广泛知识规模,这可以促进大规模、三元组级别的多模态信息生成,为未来在多模态实体对齐和MMKG驱动的应用(如MLLM预训练和VQA)提供新的机遇。
(2) 在MMKG中特征精细化和对细粒度知识齐至关重要。理想的MMKG应该是层次化的,这样的结构允许自动分解大规模跨模态数据成为MMKG,使单个图像能够对齐多个概念。此外,语义分割代表了更高级的要求。随着像Segment Anything 这样的技术成熟,类似方法可以显著减少视觉模态中背景噪声的影响。因此,向视觉特征语义分割、层次化和多粒度MMKG演进是一个重要的未来方向。
(3) 在视觉模态中,我们认为抽象概念应对应于抽象的视觉表示,而具体概念应与特定视觉对齐。例如,像猫和狗这样的一般概念在大脑中表现为通用的、平均的视觉动物图像,而特定的限定词,如“阿拉斯加雪橇犬”,提供了清晰度,类似于MMKG中的基于路径的图像检索。此外,我们还认为每个概念,无论是否可视化,都可以与某些模态表示相关联。例如,抽象概念“心智”可能会唤起“大脑”或“人类思考”的图像,这显示出MMKG中表示不可视化概念的能力。有趣的是,在人类认知中,像“独角兽”这样的罕见概念往往被描绘得更加清晰。如果我们只知道独角兽是有角的马,这个特定的图像在脑海中就是我们记住的那样,而不是有角的海豹或狮子。这反映了MMKG数据结构:图像较少的视觉概念被更加鲜明地表示,而图像较多的概念倾向于被概括且更模糊,除非给定限定。
(4) MMKG存储和利用的效率仍然是一个关注点。尽管传统的KG比较轻量并且以最小的参数存储大量知识,MMKG却需要更多空间,这对高效数据存储和跨任务应用提出挑战。
参考文献:
[1] Knowledge Graphs Meet Multi-Modal Learning: A Comprehensive Survey. (http://arxiv.org/abs/2402.05391) [2] https://github.com/zjukg/KG-MM-Survey
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。