当前位置:   article > 正文

大语言模型时代的图机器学习(LLMs) Graph Machine Learning in the Era of Large Language Models (LLMs)_simteg

simteg

大语言模型时代的图机器学习(LLMs)


论文名称:Graph Machine Learning in the Era of Large Language Models (LLMs)

论文链接:https://arxiv.org/pdf/2404.14928

摘要—图在各个领域中扮演着重要角色,如社交网络、知识图谱和分子发现等,用于表示复杂关系。随着深度学习的出现,图神经网络(GNNs)已经成为图机器学习(Graph ML)中的基石,促进了图结构的表示和处理。最近,大语言模型(LLMs)在语言任务中展示了前所未有的能力,并被广泛应用于计算机视觉和推荐系统等各种应用中。这一显著成功也引起了将LLMs应用于图领域的兴趣。人们不断努力探索LLMs在提升图机器学习的泛化、可迁移性和少样本学习能力方面的潜力。与此同时,图,尤其是知识图谱,富含可靠的事实知识,可以用来增强LLMs的推理能力,潜在地缓解其幻觉和缺乏可解释性等局限。鉴于这一研究方向的迅速进展,有必要进行一项系统性回顾,总结LLMs时代图机器学习的最新进展,以便为研究人员和从业者提供深入理解。因此,在本调查中,我们首先回顾了图机器学习的最新发展。然后探讨了LLMs如何被利用来增强图特征的质量,减轻对标记数据的依赖,并解决图异质性和分布外(OOD)泛化等挑战。之后,我们深入探讨了图如何增强LLMs,突出它们在增强LLM预训练和推理方面的能力。此外,我们调查了各种应用,并讨论了这一领域的潜在未来方向。

引言

图数据在许多现实世界应用中广泛存在,包括社交图、知识图谱和推荐系统。通常,图由节点和边组成,例如在社交图中,节点代表用户,边代表关系。除了拓扑结构外,图往往具有节点的各种特征,如文本描述,这些特征提供了有关节点的有价值的上下文和语义信息。为了有效地对图进行建模,*图机器学习(Graph ML)*引起了广泛关注。随着深度学习(DL)的出现,图神经网络(GNNs)由于其消息传递机制已成为图机器学习中的关键技术。这种机制允许每个节点通过递归地接收和聚合来自相邻节点的消息来获得其表示,从而捕捉图结构内的高阶关系和依赖关系。为了减轻对监督数据的依赖,许多研究致力于开发自监督图机器学习方法,以推进GNNs捕获可转移的图模式,增强它们在各种任务中的泛化能力。鉴于图数据应用的指数增长,研究人员正在积极努力开发更强大的图机器学习方法。

图1:大语言模型(LLMs)在图机器学习中的应用示例。LLMs与图神经网络(GNNs)的整合被用于模拟各种下游任务中的广泛图数据。

最近,大语言模型(LLMs)开启了人工智能的新趋势,并在自然语言处理(NLP)中展现了显著能力。随着这些模型的发展,LLMs不仅被应用于语言任务,还展示了在计算机视觉等各种应用中的巨大潜力。LLMs在复杂任务中的有效性归功于其在架构和数据集大小上的广泛规模。例如,拥有1750亿参数的GPT-3通过生成类似人类的文本、回答复杂问题和编码展示了令人兴奋的能力。此外,由于其庞大的训练数据集,LLMs能够掌握广泛的通用知识和复杂推理。因此,它们在语言语义和知识推理方面的能力使其能够学习语义信息。此外,LLMs表现出出色的新任务和领域的能力,在有限或无特定训练的情况下表现出色。这种特性预计将在不同下游数据集和任务中提供高泛化能力,即使在少样本或零样本情况下也是如此。因此,利用LLMs在图机器学习(Graph ML)中的能力引起了越来越多的关注,并有望将图机器学习提升到图基础模型(GFMs)。

图2:我们调查的概述。第3节 深度学习在图上 探讨了基于DNN的方法的发展,重点关注骨干架构、图预训练任务和下游适应三个方面。第4节 用于图模型的LLMs 探讨了当前LLMs如何帮助当前图ML朝向GFMs发展,从增强特征质量、解决基本GNN训练限制和异质性和泛化三个方面。第5节 图用于LLMs 着重介绍了知识图(KG)增强LLM预训练和KG增强LLM推理。第6节 应用 展示了各种应用,包括推荐系统、知识图、科学人工智能和机器人任务规划。第7节 未来方向 讨论了LLMs在图机器学习中的潜在未来方向,包括泛化和可迁移性、多模态图学习、可信性和效率。

GFMs通常在大量数据上进行训练,并可适用于各种下游任务。通过利用LLMs的能力,预计可以增强图机器学习在各种任务中的泛化能力,从而促进GFMs。目前,研究人员已经做出了一些初步努力,探索LLMs在推动图机器学习朝向GFMs方面的潜力。图1展示了整合LLMs和GNNs用于各种图任务的示例。首先,一些方法利用LLMs减轻基本图机器学习对标记数据的依赖,它们基于隐式和显式图结构信息进行推断。例如,InstructGLM通过将图数据序列化为标记并编码有关图的结构信息来微调像LlaMA和T5这样的模型,以解决图任务。其次,为了克服特征质量的挑战,一些方法进一步利用LLMs增强图特征的质量。例如,SimTeG在文本图数据集上微调LLMs以获得文本属性嵌入,然后利用这些嵌入来增强各种下游任务的GNN。此外,一些研究探索使用LLMs来解决图的异质性和OOD等挑战。

另一方面,尽管LLM在各个领域取得了巨大成功,但仍面临着一些挑战,包括幻觉、实际意识和缺乏可解释性。图,尤其是知识图,以结构化格式捕获了广泛的高质量和可靠的事实知识。因此,将图结构纳入LLMs中可以提高LLMs的推理能力并缓解这些局限。为此,人们努力探索图在增强LLMs的可解释性和减轻幻觉方面的潜力。鉴于这一领域的快速发展和巨大潜力,有必要对最近在图应用和LLMs时代的图机器学习方面的进展进行彻底审查。

因此,在本调查中,我们旨在全面审查LLMs时代的图机器学习。调查概述如图2所示:第2节回顾了与图机器学习和基础模型相关的工作。第3节介绍了图上的深度学习方法,重点介绍各种GNN模型和自监督方法。随后,调查深入探讨了LLMs如何用于增强图机器学习的第4节,以及图如何用于增强LLMs的第5节。最后,在第6节和第7节中讨论了LLMs时代的图机器学习的一些应用和潜在未来方向。我们的主要贡献可以总结如下:

  • 我们详细介绍了从早期图学习方法到LLMs时代的最新GFMs的演变;
  • 我们对当前LLMs增强的图机器学习方法进行了全面分析,突出了它们的优势和局限性,并提供了系统分类;
  • 我们深入探讨了图结构解决LLMs局限性的潜力;
  • 我们探讨了LLMs时代的图机器学习的应用和未来方向,讨论了各种领域的研究和实际应用。
    在我们的调查同时进行的是,魏等人[36]回顾了图学习的发展。张等人[37]提供了对大型图模型的前瞻性回顾。金等人[38]和李等人[39]分别回顾了在图上预训练语言模型(特别是LLMs)的不同技术以及应用于不同类型图的应用。刘等人[40]根据流程回顾了图基础模型。毛等人[18]聚焦于基本原理并讨论了GFMs的潜力。与这些同时进行的调查不同,我们的调查提供了更全面的回顾,具有以下不同之处:(1)我们对图机器学习的发展进行了更系统的回顾,并进一步探索了LLMs在图机器学习中朝向GFMs的应用;(2)我们提供了最近图机器学习进展的更全面和细致的分类;(3)我们深入探讨了最近图机器学习的局限性,并从LLM的角度提供了如何克服这些局限性的见解;(4)我们进一步探讨了如何利用图来增强LLMs;以及(5)我们全面总结了广泛的应用,并对挑战和未来方向进行了更具前瞻性的讨论。

相关工作

在这一部分,我们简要回顾了图机器学习和基础模型技术领域的一些相关工作。

图机器学习

作为人工智能中最活跃的领域之一,图学习吸引了相当多的关注,因为它能够模拟以图表示的数据中的复杂关系和结构[41]。如今,它已被广泛应用于各种应用,包括社交网络分析[42]、蛋白质检测[43]、推荐系统[44]、[45]等。

图学习的初期阶段通常使用随机游走,这是探索图结构的基础方法。这种技术涉及在图中从一个节点移动到另一个节点的随机过程,有助于理解网络中节点的连接性和影响力。在随机游走的基础上,图嵌入方法旨在将节点(或边)表示为保留图拓扑和节点关系的低维向量。代表性的方法如LINE[46]、DeepWalk[47]和Node2Vec[48]利用随机游走学习节点表示,有效捕捉局部结构和社区信息。

由于出色的表示学习和建模能力,深度学习支持的GNNs在图学习中取得了重大进展。例如,GCNs[49]引入了卷积操作到图数据中,实现对每个节点的邻域信息的有效聚合,从而增强节点表示学习。GraphSAGE[50]学习了一个函数来在归纳设置中聚合节点的局部邻域信息,允许为未见节点生成有效的嵌入。GAT[51]通过整合注意力机制进一步推进了GNNs,为邻域中的节点分配不同权重,从而增强模型集中关注重要节点的能力。受到NLP和CV中transformers[52]成功的启发,一些研究[53]–[57]采用自注意机制处理图数据,提供了对图结构和相互作用更全局的视角。最近的研究[58]–[62]进一步利用transformer架构增强图数据建模。例如,GraphFormer[58]在transformer的每一层中集成了GNN,实现了对文本和图信息的同时考虑。

LLMs的进步催生了图学习的发展。最近的研究[20]、[21]、[26]、[63]将这些先进语言模型的技术应用于图数据,如LLaMA[23]或ChatGPT,从而产生了能够理解和处理图结构的模型,类似于自然语言处理。一种典型的方法,GraphGPT[22],将图数据标记化以插入LLMs(如Vicuna[64]和LLaMA[23]),从而提供强大的泛化能力。GLEM[65]进一步将图模型和LLMs,特别是DeBERTa[66],整合到变分期望最大化(EM)框架中。它在E步和M步之间交替更新LLM和GNN,从而实现高效扩展并提高下游任务的效果。

基础模型(FMs)

基础模型(FMs)代表了人工智能领域的重大突破,其特点是能够在大规模数据集上进行广泛预训练,并适应各种下游任务。这些模型以在大规模数据集上进行广泛预训练和适应各种下游任务而著称。值得注意的是,FMs并不局限于单一领域,在自然语言[14]、[15]、视觉[67]、[68]和图领域[18]、[40]中都有应用,是一个具有前景的研究方向。

在视觉领域,视觉基础模型(VFMs)取得了显著成功,在图像识别、目标检测和场景理解等领域产生了重大影响。具体来说,VFMs受益于在广泛和多样化的图像数据集上进行预训练,使其能够学习复杂的模式和特征。例如,诸如DALL-E[69]和CLIP[67]的模型利用自监督学习来理解和生成基于文本描述的图像,展示了出色的跨模态理解能力。最近的Visual Chat-GPT[68]将ChatGPT与一系列视觉基础模型(VFMs)整合在一起,使其能够执行各种复杂的视觉任务。这些VFMs使模型能够从更广泛的视觉数据中学习,从而提高其泛化能力和鲁棒性。

在自然语言处理(NLP)领域,诸如ChatGPT和LLaMA等大型语言模型(LLMs)也彻底改变了这一领域[70]。LLMs以其庞大的规模而闻名,使用大量文本数据集训练数十亿参数,使其在理解和生成自然语言方面表现出色。预训练语言模型的格局多样,如GPT(生成式预训练变换器)[14]、BERT(双向编码器表示来自变换器)[15]和T5(文本到文本转换变换器)[24]。这些模型可以广泛分为三类:仅编码器、仅解码器和编码器-解码器模型。仅编码器模型,如BERT,专注于理解和解释语言。相反,像GPT这样的仅解码器模型擅长生成连贯和上下文相关的文本。编码器-解码器模型,如T5,结合了这两种能力,有效地执行从翻译到总结等各种NLP任务。

作为一种仅编码器模型,BERT引入了NLP中的一种范式,即其创新的双向注意机制,该机制同时分析文本的两个方向,与其前身transformer不同,后者在单个方向(从左到右或从右到左)处理文本。这一特性使BERT能够获得全面的上下文理解,显著提高其语言细微差别理解能力。另一方面,像GPT这样的仅解码器模型,包括ChatGPT等变体,利用单向自注意机制。这种设计使它们特别擅长预测序列中的后续单词,从而在文本完成、创意写作和代码生成等任务中表现出色。此外,作为编码器-解码器模型,T5独特地将各种NLP任务转化为文本生成问题。例如,它将情感分析从分类任务重新构思为文本生成任务,其中像“情感:今天阳光明媚”这样的输入会促使T5生成“积极”等输出。这种文本到文本的方法突显了T5在各种语言任务中的多功能性和适应性。

LLMs的发展见证了像GPT-3[92]、LaMDA[93]、PaLM[94]和Vicuna[64]等先进模型的出现。这些模型代表了NLP领域的重大进步,以其在理解和生成复杂、细致语言方面的增强能力而著称。它们的训练方法通常更为复杂,涉及更大规模的数据集和更强大的计算资源。这种扩展导致了前所未有的语言理解和生成能力,展示了诸如上下文学习(ICL)、适应性和灵活性等新兴特性。此外,最近的进展展示了LLMs与其他模型的成功整合,如推荐系统[17]、强化学习(RL)[95]、GNNs[25]、[96]–[98]。这种整合使LLMs能够应对传统和新颖挑战,提出了应用的前景途径。

LLMs在化学[99]、[100]、教育[101]、[102]和金融[103]、[104]等各个领域都有应用,它们为从数据分析到个性化学习等各种任务做出了贡献。特别是,LLMs在图任务中展现出巨大潜力,如图分类和链接预测,展示了它们的多功能性和广泛适用性。具体来说,诸如Simteg[25]、GraD[97]、Graph-Toolformer[96]和Graphologue[98]等研究显著推进了图学习。这些模型利用LLMs进行文本图学习、图感知蒸馏和图推理,展示了LLMs在增强对复杂图结构的理解和交互方面的潜力。
尽管 FMs 已经彻底改变了视觉和自然语言处理领域,但图基础模型(GFMs)的发展仍处于起步阶段。随着这一领域的快速发展和巨大潜力,继续探索和开发能进一步提升图机器学习朝向 GFMs 的先进技术至关重要。

图上的深度学习

随着深度神经网络(DNNs)的快速发展,用于表示学习的 GNN 技术模拟图结构和节点属性已被广泛探索,并成为图机器学习中的一项关键技术。虽然传统 GNN 在各种图任务中表现出色,但仍面临诸多挑战,如可扩展性、对未见数据的泛化能力以及捕捉复杂图结构的能力有限。为了克服这些限制,许多努力致力于改进 GNN 的自监督范式。因此,在本节中,为了全面回顾这些方法,我们首先介绍骨干架构,包括基于 GNN 的模型和基于图的变换器模型。之后,我们探讨自监督图机器学习模型的两个重要方面:图预训练任务和下游适应。需要注意的是,这些方法的全面总结见表1。

骨干架构

作为人工智能(AI)社区中最活跃的领域之一,各种 GNN 方法已被提出来解决各种任务。这些模型的强大能力在很大程度上取决于它们骨干架构的发展。因此,在本小节中,我们专注于两种广泛使用的架构:基于邻域聚合的模型和基于图变换器的模型。

基于邻域聚合的模型

基于邻域聚合的模型是最受欢迎的图学习架构之一,已在各种下游任务中得到广泛研究和应用。这些模型基于消息传递机制[105]运行,通过聚合其邻居节点的特征以及自身特征来更新节点的表示。形式上,这个过程可以表示为:

$$
\begin{aligned}

m_u & =\operatorname{Aggregate}\left(f_v, v \in \mathcal{N}_u\right), \

f_u^{\prime} & =\operatorname{Update}\left(m_u, f_u\right),

\end{aligned}
$$

对于每个节点 u u u,通过邻居节点的聚合函数生成一个消息 m u m_u mu。随后,使用该消息更新图信号 f f f

表1:各种基于 DNN 的模型比较。我们列出模型及其架构、预训练任务、适应方法和下游任务。适应方法 中的 URL 表示无监督表示学习。

GCN 是一种典型方法,旨在利用图结构和节点属性。该架构通过聚合邻近特征与节点自身来更新节点表示。随着网络层数的增加,每一层都捕获越来越大的邻域。由于效率和性能,GCN [49] 已被广泛应用于诸多方法,如 CSSL [11] 和 PRODIGY [89]。GraphSAGE [50] 是另一个值得注意的基于邻域聚合的模型。由于其归纳范式,GraphSAGE 可轻松泛化到未见节点或图,因此被许多研究广泛采用,如 PinSage [106] 用于归纳学习。此外,几项研究[73],[86],[89]将图注意力网络(GATs)[51]纳入骨干架构。GATs 将注意力机制整合到 GNN 中,为邻近节点分配可变权重,从而专注于输入图的最相关部分,以改进节点表示。作为 GNN 家族中的另一个重要模型,图同构网络(GIN)[107]也被广泛使用[10],[13],[82],[90],由于其强大的表示能力。其独特的架构保证了与 Weisfeiler-Lehman 同构测试等价的表达能力,使其被广泛选择作为许多结构密集型任务的骨干模型。

尽管这些模型被广泛采用来解决图任务,但它们仍然存在一些固有限制,如过度平滑和泛化能力不足。此外,参数较少也限制了作为骨干模型为多个数据集和任务提供服务的建模能力。

基于图变换器的模型

虽然基于邻域聚合的 GNN 模型在处理图结构数据方面表现出色,但它们也存在一些限制。这些模型面临的一个重要挑战是难以处理大型图,因为它们依赖于局部邻域信息,并且在图内捕捉长距离依赖性的能力有限。为了克服这些问题,受到变换器模型在各种自然语言处理任务中成功的启发,提出了基于图变换器的模型。这些模型利用自注意机制来适应地捕捉局部和全局图结构,使模型能够堆叠多个层而不会过度平滑。由于较低的归纳偏差,基于图变换器的模型可以从数据中学习结构模式,而不仅仅依赖于图结构。此外,变换器在计算机视觉和自然语言处理领域展现出很好的扩展行为,表明随着更多数据和参数,它们的性能可以不断提高。

基于图变换器的模型已广泛应用于各种任务[57],[77],[78],[91]。例如,Graph-Bert [57] 使用变换器对图数据集进行预训练,包括特征和边重建任务,然后微调用于各种下游任务。类似地,GROVER [77] 提出了一种自监督图变换器模型,专门设计用于大规模分子数据。它在广泛的分子数据集上进行预训练,然后针对特定下游任务进行微调。GraphGPT [79] 使用(半)欧拉路径将图转换为令牌序列,然后将序列输入变换器。具体来说,它构建了一个特定于数据集的词汇表,以便每个节点可以对应一个唯一的节点 ID。

尽管基于图变换器的模型在一定程度上解决了传统 GNN 的局限性,但它们也面临一些挑战。其中之一是自注意力引起的二次复杂度,这对于大规模图尤为棘手。此外,在序列化图时,存在丢失原始图结构信息的风险。

图3:预训练、微调和提示调整的比较。 (a) 预训练涉及根据特定的预训练任务训练 GNN 模型。 (b) 微调根据下游任务更新预训练 GNN 模型的参数。 © 提示调整根据下游任务生成和更新提示的特征,同时保持预训练 GNN 模型固定且不进行任何修改。

图上的自监督学习

为了使 GNN 适应各种图任务,许多自监督学习方法已被提出并得到广泛研究。这些方法使 GNN 能够从预训练任务中学习图表示,并将其转移到各种下游任务,如节点分类、图分类和链接预测。因此,在本小节中,我们将分别介绍图自监督学习方法的预训练任务和下游适应。

图预训练任务

图对比学习 旨在通过对比相似和不相似的图数据对来学习增强表示,有效识别微妙的关系和结构模式。我们可以从两个角度审视图对比学习:图增强和对比规模。

一般来说,图增强可以大致分为两类:1)特征扰动 和 2)拓扑扰动。它们假设在特征或结构空间中的微小变化不会改变节点/边/(子)图的语义。特征扰动涉及扰动图中节点的特征。例如,GRACE [72] 随机屏蔽节点特征以学习更强大的表示。另一方面,拓扑扰动主要涉及修改图的结构。典型示例是 CSSL [11],它采用诸如边扰动或节点删除等策略来采用图-图级对比,从而增强表示的鲁棒性。
关于对比的尺度,方法可以分为节点级和图级。例如,GRACE [72] 计算节点级嵌入之间的相似性,以学习具有区分性的节点表示。GCC [13] 也在节点级别工作,但通过对节点的邻居进行采样以获得子图(正对比对)并将其与随机选择的非上下文子图(负对比对)进行对比,从而学习局部结构模式。相比之下,DGI [71] 将节点级嵌入与图级嵌入进行对比,以捕获全局图结构。GraphCL [10] 采用了不同的方法,实现了图对图级别的对比,从而学习稳健的表示。预训练时使用的尺度对下游性能有很大影响。在将对比学习作为预训练任务时,一个关键挑战是如何设计目标,使得学到的嵌入可以适用于不同尺度的下游任务。

图生成 方法旨在学习图数据的分布,以实现图生成或重构。与在计算机视觉中预测遮蔽的图像补丁或在自然语言处理中预测序列中的下一个标记不同,图数据由于其相互连接的特性而具有独特的挑战。因此,图生成方法通常在特征空间或结构空间上工作。特征生成方法侧重于遮蔽一个或一组节点的特征,然后训练模型恢复被遮蔽的特征。例如,GraphMAE [73] 利用遮蔽自编码器框架根据上下文重构被遮蔽的图部分,有效捕捉潜在的节点语义及其连接模式。另一方面,结构生成方法集中于训练模型恢复图结构。方法GraphGPT [79] 将图编码为令牌序列,然后使用变压器解码器预测序列的下一个标记,以恢复图的连接性。此外,Graph-Bert [57] 在节点属性恢复和图结构恢复任务上进行训练,以确保模型捕获局部节点属性信息同时保持对图结构的全局视图。

图属性预测 方法从图数据中固有地存在的节点级、边级和图级属性中获得指导。这些方法遵循类似于监督学习的训练方法,因为两者都利用“样本-标签”对进行训练。关键区别在于标签的来源:在监督学习中,标签由人类专家手动注释,这在实际场景中可能成本高昂,而在基于属性的学习中,标签是通过一些启发式方法或算法从图中自动生成的。例如,GROVER [77] 利用专业软件提取图中的图案信息作为分类的标签。类似地,[111] 利用图的统计属性进行图的自监督学习。

下游适应

无监督表示学习 (URL) 是一种常见方法,因为现实世界中标记数据稀缺 [71]–[74]。在URL中,预训练的图编码器被冻结,只有在下游微调期间才学习特定任务的层。学到的表示然后直接输入解码器。这种模式使得URL能够有效地应用于下游任务。例如,DGI [71] 训练一个编码器模型来学习图结构内的节点表示。然后这些节点表示可以用于下游任务。然而,由于预训练任务与下游任务之间存在差距,URL也可能导致性能不佳。

微调 是将预训练模型适应特定下游任务的默认方法。如图3所示,它在预训练模型的顶部添加一个随机初始化的任务头(例如分类器),在微调期间,同时训练骨干模型和头部 [10],[11],[57]。与URL相比,微调提供更多的灵活性,因为它允许改变骨干参数,并且可以选择要微调的层,同时保持其他层固定。此外,最近的研究 [10],[76],[78] 进一步探索了超越简单微调的先进图微调方法。例如,AdapterGNN [76] 在消息传递之前和之后引入了两个可训练的适配器。它在微调期间冻结GNN模型,只调整适配器,从而实现参数高效微调,对下游性能的影响最小。

提示微调: “预训练和微调”是将预训练模型适应特定下游任务的常见方法,但它忽视了预训练和下游任务之间的差距,可能限制了泛化能力。此外,为不同任务进行微调也会导致显著的时间和计算成本。受自然语言处理领域最新进展的启发,一些方法 [82]–[88],[90],[91] 提出了引入提示来将预训练模型调整到特定任务的潜力,如图3所示。具体来说,提示微调首先将下游任务与预训练任务统一到相同的范式中,然后引入可学习的提示进行微调。例如,GPPT [83] 首先将节点分类重新构建为链接预测。GraphPrompt [82] 进一步将图分类扩展为链接预测。另一方面,Prog [86] 将所有下游任务统一为子图分类。插入的提示包括向量 [82],[83],[85],节点 [90] 和子图 [86]。通过插入这些提示,预训练参数可以更贴近下游任务的要求。

用于图模型的LLM

尽管基于GNN的图机器学习具有巨大潜力,但也存在固有局限性。首先,传统的GNN模型通常需要标记数据进行监督,而获取这些注释可能在时间和成本上具有资源密集性。其次,现实世界中的图通常包含丰富的文本信息,这对于下游任务至关重要。然而,GNN通常依赖于浅层文本嵌入进行语义提取,从而限制了其捕捉复杂语义和文本特征的能力。此外,图的多样性对于GNN模型在跨领域和跨任务上的泛化提出了挑战。

最近,LLM在处理自然语言方面取得了显著成功,具有进行零/少样本预测和提供统一特征空间等令人兴奋的特性。这些能力为解决图机器学习和GFMs所面临的挑战提供了潜在解决方案。因此,本节旨在探讨当前LLM可以为增强图机器学习向GFMs的进展做出的贡献,同时检验它们当前的局限性,如图4所示。

提升特征质量

图包含各种属性信息,涵盖文本、图像、音频和其他多模态模式。这些属性的语义在许多下游任务中起着关键作用。与早期的预训练模型相比,LLM由于其庞大的参数量和在广泛数据集上的训练而脱颖而出,赋予其丰富的开放世界知识。因此,研究人员正在探索LLM的潜力,以提高特征质量并对齐特征空间。本节深入研究了利用LLM实现这些目标的研究努力。

增强特征表示

研究人员利用LLM强大的语言理解能力,相较于传统的浅层文本嵌入,为文本属性生成更好的表示 [26],[112],[113]。例如,Chen等人 [26] 将LLM用作文本编码器,GNN模型作为预测器,验证了LLM在节点分类任务中的有效性。在LKPNR [112] 中,LK-Aug新闻编码器通过将LLM嵌入与新闻文本中的实体嵌入连接,增强了新闻推荐系统的效果。一些研究人员探索微调LLM以获得更适合下游图任务的文本表示。SimTeG [25] 将节点分类和链接预测任务视为文本分类和文本相似性任务,使用LoRA [146] 在TAG数据集上微调PLMs。微调后的PLMs然后用于生成文本属性的嵌入,随后进行GNN训练以进行下游任务。

生成增强信息

一些研究探讨利用LLM的生成能力和通用知识,从原始文本属性生成增强信息。TAPE [114] 首先利用LLM生成潜在节点标签和解释,利用文本属性(如标题和摘要)作为输入。LLM生成的这些标签和解释被视为增强属性。随后,这些增强属性由微调的语言模型(LM)编码,并由GNN模型处理,该模型整合了图结构以进行最终预测。
图 4:图机器学习中LLM的示意图。 (1) 使用LLM增强特征质量的方法,通过增强特征表示、生成增强信息和对齐特征空间。 (2) 探索解决普通GNN训练限制的方法根据处理图中结构信息的方式进行分类:忽略结构信息、隐式结构信息和显式结构信息。 (3) 研究利用LLM缓解异质性和泛化的限制。

与TAPE不同,KEA [26] 不直接使用LLM预测节点标签。相反,LLM提取文本属性中提到的术语,并提供这些术语的详细描述。

在分子属性预测领域,LLM4Mol [63] 和GPT-MolBERTa [118] 都采用类似的方法,其中LLM生成对输入的简化分子输入线条条目系统(SMILES)符号的解释作为增强属性。

在推荐系统领域,一些方法利用LLM增强用户和物品的文本属性。LLM-Rec [117] 通过在提示中明确陈述推荐意图,使LLM能够生成更详细的物品描述。RLMRec [115] 探索使用LLM增强用户偏好。具体来说,LLM接收用户和物品信息作为输入,生成用户偏好、物品可能吸引的用户类型以及推理过程。LLMRec [116] 采用类似方法增强推荐系统中的物品和用户属性。例如,基于历史行为信息,LLM输出用户资料,如年龄、性别、国家、语言以及喜欢或不喜欢的流派。对于物品属性,以电影信息如标题为输入,LLM生成导演、国家和语言等输出。

除了生成增强文本属性外,研究人员还利用LLM通过生成或优化节点和边来增强图的拓扑结构。在ENG [119] 中,LLM被用于为每个节点类别生成新节点及其相应的文本属性。为了将生成的节点整合到原始图中,作者使用原始数据集中的关系作为监督信号训练边预测器。孙等人 [120] 利用LLM优化图结构。具体来说,他们让LLM通过预测节点属性之间的语义相似性来消除不可靠的边。此外,他们利用LLM生成的伪标签来帮助GNN学习适当的边权重。

对齐特征空间

在现实场景中,不同领域的图的文本属性表现出相当大的多样性。此外,除了文本模态属性外,图可能包含各种其他模态属性。直接使用预训练模型(PMs)对跨领域和多模态特征进行编码可能无法产生令人满意的结果。因此,LLM被用于对齐特征空间并提供更好的表示。TouchUp-G [81] 引入了一种以图为中心的微调策略,旨在增强与图相关任务的多模态特征。

表 2:图机器学习中LLM研究的总结。我们提供了GNN模型、LLM模型、预测器、领域、任务、数据集和项目链接。FT 是微调,表示是否对LLM模型的参数进行修改,PR 是提示,涉及向LLM输入文本提示以获得响应。在任务的背景下,“节点”表示节点级任务,如节点分类,“边”表示边级任务,如链接预测,“图”表示图级任务,如图分类,“结构”涉及结构理解任务,如节点度计数。

最初,他们提出了一种新颖的特征同质性度量方法,用于量化节点特征与图结构之间的对齐程度。在此度量的基础上,作者设计了一个结构感知损失函数,通过最小化特征与图之间的差异来优化PM。[121] 的工作引入了OFA,一个用于不同领域图分类任务的统一框架。OFA收集了涵盖不同领域的九个文本属性图数据集,并用自然语言表示节点和关系。然后,LLM被用于将这些跨领域图信息嵌入到相同的嵌入空间中。此外,OFA提出了一种图提示范式,将包含下游任务信息的提示图整合到原始输入图中,使GNN模型能够根据提示图自适应地执行不同任务。

解决普通GNN训练限制

普通GNN的训练依赖于标记数据。然而,获取高质量的标记数据一直与大量时间和成本相关联。与GNN不同,LLM展示了强大的零/少样本能力,并具有广泛的开放世界知识。这一独特特性使LLM能够直接利用节点信息进行预测,而无需依赖广泛的注释数据。因此,研究人员探索了利用LLM生成注释或预测,减轻对人类监督信号在图机器学习中的依赖。根据处理图数据中的结构信息的方式,我们将方法分类为以下三类:

  • 忽略结构信息:仅利用节点属性构建文本提示,忽略相邻标签和关系。

  • 隐式结构信息:用自然语言描述邻居信息和图拓扑结构;

  • 显式结构信息:使用GNN模型编码图结构。

忽略结构信息

图与文本之间的基本区别在于图中固有的结构信息。由于LLM处理文本作为其输入,一种直观的方法是利用目标节点的文本属性,忽略图中的结构信息,直接进行预测。例如,[122] 的工作探讨了LLM在不使用结构信息解决图任务中的有效性。在引文网络中,他们使用文章的标题和摘要构建提示,并指导LLM预测文章的类别。由于这种范式不包含图的结构信息,LLM实际执行的任务是文本分类而不是与图相关的任务。

隐式结构信息

研究人员通过用自然语言描述图结构来隐式利用结构信息解决图任务。例如,胡等人 [122] 提出了两种利用结构信息的方法。第一种方法涉及直接将所有邻居节点的数据输入LLM,而第二种方法使用基于检索的提示来引导LLM仅关注相关的邻居数据。类似地,黄等人 [129] 使用LLM为邻居节点分配分数,然后选择得分较高的节点作为结构信息。NLGraph [123] 引入了一个构建图提示策略,以改善LLM对图结构的理解。该策略包括在提供图数据描述后附加“让我们首先构建一个包含节点和边的图。”。[20] 的工作引入了InstructGLM,它利用自然语言描述图,并通过指导微调Flan-T5来生成一组31个提示,通过组合四个配置参数:任务类型、节点特征的包含、最大跳数和节点连接的利用。值得注意的是,最大跳数和节点连接隐含地向LLM传达了图结构信息。GraphEdit [133] 利用LLM理解图结构并通过删除嘈杂边和揭示隐含节点连接来优化图结构。具体来说,它使用边预测器为每个节点识别前k个候选边,然后将这些候选边与图的原始边一起输入LLM。LLM被提示确定哪些边应集成到最终的图结构中。

除了使用自然语言表达外,一些研究人员利用结构化语言描述图结构。例如,GPT4Graph [21] 利用图建模语言和图标记语言以XML格式表示图结构。GraphText [28] 为每个图构建一个图语法树,包含节点属性和关系信息。通过遍历此树,可以生成结构化的图文本序列。GraphText 的优势在于通过构建各种图语法树来整合GNN的典型归纳偏差。

显式结构信息

虽然隐式地用自然语言描述结构已经取得了初步成功,但这些方法仍面临着
某些限制。首先,由于输入长度的限制,LLMs 只能获取局部结构信息,而冗长的上下文可能会削弱它们的推理能力 [149] 和遵循指令的能力 [26]。其次,对于不同的任务和数据集,通常需要大量的工作来进行及时的工程处理。在一个数据集上表现良好的提示可能无法有效地推广到其他数据集,导致缺乏鲁棒性。因此,研究人员研究了显式表示图结构,通常包括三个基本模块:编码模块,融合模块LLM 模块。具体来说,编码模块旨在处理图结构和文本信息,分别生成图嵌入和文本嵌入。随后,融合模块将这两个嵌入作为输入,生成一个模态融合嵌入。最后,包含图信息和指令信息的模态融合嵌入被馈送到 LLM 中以获得最终答案。鉴于研究重点是LLMs如何显式利用图结构信息,我们将详细探讨各种研究中编码和融合模块,而不是主要关注LLM模型本身。

编码模块。 编码模块负责图形和文本编码,我们将为每个提供单独的摘要。

  • 图编码。 预训练的 GNN 模型通常用于图编码。例如,GIT-Mol [139] 使用预训练的 MoMu 模型 [80] 中的 GIN 模型来编码分子图。KoPA [137] 利用预训练的 RotateE 模型获取知识图中实体和关系的嵌入。此外,GIMLET [138] 提出了一个统一的图文模型,无需额外的图编码模块。特别是,GIMLET 提出了一种基于距离的联合位置嵌入方法,利用最短的图距离来表示图节点之间的相对位置,使得 Transformer 编码器能够同时编码图和文本。GraphToken [144] 评估了一系列 GNN 模型作为图编码器,包括 GCN、MPNN [105]、GIN、Graph Transformer、HGT [56] 等。

  • 文本编码。 由于LLMs在理解文本信息方面具有巨大的能力,大多数现有方法,如 ProteinChat [141] 和 DrugChat [136],直接使用LLMs作为文本编码器。在 GraphLLM [134] 中,LLM的分词器和冻结的嵌入表被利用来获取节点文本属性的表示,与下游的冻结LLM相一致。

融合模块。 融合模块的目标是对齐图形和文本模态,生成一个融合嵌入作为LLM的输入。为实现这一目标,一个直接的解决方案是设计一个线性投影层,将由GNN生成的图表示直接转换为LLM兼容的软提示向量 [136],[137],[140]。此外,受 BLIP2 的 Q-Former [150] 启发,[139] 提出了一个 GIT-Former,利用自注意力和交叉注意力机制对齐图形、图像和文本与目标文本模态。

除了上述方法,G-Retriever 被提出来整合显式和隐式结构信息 [143]。具体来说,GAT 被用于编码图结构,同时通过文本提示表示节点和关系细节。为了适应具有更大规模的真实世界图形,G-Retriever 引入了一个专门设计用于检索与用户查询相关子图的 RAG 模块。

图5:利用LLMs处理隐式和显式结构信息的示意图。 (1) 利用 隐式结构信息 的方法描述节点和图结构信息,用任务特定指令组合成文本提示,然后输入LLM生成预测结果。 (2) 利用 显式结构信息 的方法使用GNNs和LLMs分别编码图和指令信息。然后,添加融合层来对齐图形和文本模态,融合的嵌入输入LLM进行预测。

异质性和泛化

尽管GNN在图任务中取得了令人满意的表现,但存在一些缺点。一个显著的缺点涉及邻居信息聚合机制的不足,特别是在处理异构图时。当相邻节点缺乏相似性时,GNN的性能明显下降。此外,GNN在分布之外的泛化方面遇到挑战,导致模型在训练数据之外的分布上性能下降。这个挑战在实际应用中特别普遍,主要是由于在有限的训练数据中难以涵盖所有可能的图结构。因此,当GNN推断未见过的图结构时,其性能可能会大幅下降。这种降低的泛化能力使得GNN在面对现实世界场景中不断变化的图数据时相对脆弱。例如,在社交网络中,GNN可能会遇到难以处理新出现的社交关系的困难。

LLMs已被用于缓解上述限制。特别是,GraphText [28] 通过将节点属性和关系封装在图形语法树中,有效地解耦了深度和范围。这种方法在异构图上比GNN基线表现出更好的结果。陈等人 [26] 研究了LLM处理泛化场景的能力。他们利用 GOOD [151] 基准作为标准,结果表明LLMs在解决泛化问题方面表现出有希望的性能。OpenGraph [145] 旨在解决跨不同领域的零-shot图任务。在这个模型中,LLMs被利用来生成数据稀缺场景下的合成图,从而增强了OpenGraph的预训练过程。

用于LLMs的图形

LLMs在各个领域展示了令人印象深刻的语言生成和理解能力。然而,它们仍然面临一些紧迫的挑战,包括事实意识、幻觉、推理过程中的有限可解释性等。为了缓解这些问题,一个潜在的方法是利用知识图谱(KGs),它以结构化格式存储高质量的人工筛选事实知识 [5]。最近的综述 [152]–[154] 总结了利用KGs增强LMs的研究。胡等人 [152] 提出了一个关于知识增强的预训练语言模型用于自然语言理解和自然语言生成的综述。Agrawal等人 [153] 系统地回顾了通过利用KGs减轻LLMs中幻觉问题的研究,涵盖了推理过程、学习算法和答案验证三个维度。潘等人 [154] 从三个不同的角度全面总结了KGs和LLMs的整合:KG增强LLMs、LLM增强KGs以及LLMs和KGs的协同增强,其中LLMs和KGs相互加强。在本节中,我们将深入探讨探索使用KGs实现知识增强语言模型预训练、减轻幻觉问题和改善推理可解释性的相关研究。

KG增强LLM预训练

虽然LLMs在文本理解和生成方面表现出色,但它们仍可能产生在事实上不正确的信息。在LLM预训练过程中明确地整合来自KGs的知识有助于增强LLM的学习能力和事实意识 [155]–[157]。在本小节中,我们将概述KG增强预训练语言模型(PLMs)的研究进展。尽管在LLMs的KG增强预训练方面的工作有限,但对KG增强PLMs的研究可以为LLM预训练提供启示。现有的KG增强预训练方法可以分为三类主要类别:修改输入数据、修改模型结构和修改预训练任务。

修改输入数据

一些研究人员研究了通过修改输入数据集成KG知识,同时保持模型架构不变的方法。例如,Moiseev等人 [158] 直接在混合语料库上训练PLMs,其中包含来自KGs的事实三元组和自然语言文本。E-BERT [159] 将实体向量与BERT的词片向量空间对齐,保留结构并避免额外的预训练任务。KALM [160] 利用实体名称字典识别句子中的实体,并使用实体分词器对其进行分词。Transformer的输入包括原始词嵌入和实体嵌入。此外,K-BERT [161] 通过构建一个句子树,将原始句子与相关三元组集成,其中主干代表原始句子,分支代表三元组。为了将句子树转换为模型输入,K-BERT在嵌入层内引入了硬位置索引和软位置索引,以区分原始标记和三元组标记。

修改模型结构

一些研究设计了特定于知识的编码器或融合模块,以更好地将知识注入到PLM中。ERNIE [162] 引入了一个 K-编码器,用于将知识注入到表示中。这涉及将标记嵌入和标记嵌入与实体嵌入的串联馈送到融合层,以生成新的标记嵌入和实体嵌入。相比之下,CokeBERT [163] 扩展了这一方法,通过在预训练过程中整合来自知识图谱的关系信息。它引入了一个基于语义驱动的GNN模型,根据给定文本为关系和实体分配相关分数。最后,它使用类似于ERNIE的K-编码器将选定的关系和实体与文本融合。KLMO [164] 提出了知识聚合器,在预训练过程中融合文本模态和知识图谱模态。为了整合知识图谱嵌入中的结构信息,KLMO利用了知识图谱注意力,它将可见性矩阵与传统注意力机制相结合,促进知识图谱中相邻实体和关系之间的交互。随后,标记嵌入和上下文知识图谱嵌入通过实体级跨知识图谱注意力进行聚合。

一些研究避免修改语言模型的整体结构,而是引入额外的适配器来注入知识。为了保留PLM中的原始知识,Wang等人 [165] 提出了K-适配器作为一个可插拔模块,以利用知识图谱知识。在预训练过程中,K-适配器的参数会被更新,而PLM的参数保持冻结。KALA [166] 引入了一个基于知识的特征调制层,其功能类似于适配器模块,通过使用检索到的知识表示来缩放和转移PLM的中间隐藏表示。为了进一步控制适配器的激活水平,DAKI [167] 结合了基于注意力的知识控制器模块,这是一个带有额外线性层的适配器模块。

修改预训练任务

为了明确建模文本和知识图谱知识之间的交互,提出了各种预训练任务。在这方面,有三条主要研究方向,包括以实体为中心的任务 [162],[168]–[171],以关系为中心的任务 [155],以及更多。

对于以实体为中心的任务,ERNIE [162] 随机屏蔽一些标记-实体对齐,然后要求模型基于对齐的标记预测所有相应的实体。LUKE [168] 使用维基百科文章作为训练语料库,并将其中的超链接视为实体注释,训练模型以预测随机屏蔽的实体。KILM [169] 也利用维基百科文章中的超链接作为实体。然而,它在相应实体之后插入实体描述,要求模型重建被屏蔽的描述标记而不是直接屏蔽实体。除了预测被屏蔽的实体外,GLM [170] 还引入了一个抑制干扰项的排名任务。该任务利用来自知识图谱的负面实体样本作为干扰项,增强模型区分各种实体的能力。以关系为中心的任务在增强知识建模的KG增强PLM中也常被使用。例如,JAKET [172] 提出了关系预测和实体类别预测任务以增强知识建模。Dragon [173] 在一个知识图谱链接预测任务中进行了预训练。给定一个文本-KG对,模型需要预测知识图谱中的被屏蔽关系和句子中的被屏蔽标记。ERICA [174] 引入了一个关系区分任务,旨在语义上区分两个关系之间的接近程度。具体来说,它采用了对比学习的方式,其中属于相同关系的实体对的关系表示被鼓励更加接近。

此外,还有一些创新的KG增强预训练任务。KEPLER [175] 提出了一个知识嵌入任务,以增强PLM的知识感知能力。具体来说,它使用PLM来编码实体描述作为实体嵌入,并在同一个PLM上联合训练知识嵌入和被屏蔽语言建模任务。ERNIE 2.0 [176] 从词汇、结构和语义角度构建了一系列连续的预训练任务。

KG增强LLM推理

知识图谱中的知识可以动态更新,而更新LLM中的知识通常需要调整模型参数,这需要大量的计算资源和时间。因此,许多研究选择在LLM推理阶段利用知识图谱。LLM的“黑盒”特性在理解模型如何做出特定预测或生成特定文本方面构成了重要挑战。此外,LLM经常因生成虚假、错误或误导性内容而受到批评,通常被称为幻觉 [29],[30],[177]。鉴于知识图谱的结构化和基于事实的特性,在推理阶段整合它们可以增强LLM答案的可解释性,从而减轻幻觉。

虽然有几种方法根据用户查询从知识图谱中提取相关三元组,并在提示中用自然语言描述这些三元组 [178],[179],但这些方法忽视了知识图谱固有的结构化信息,仍然无法阐明LLM如何得出答案。因此,大量研究利用知识图谱来帮助LLM进行推理,并生成中间信息,如关系路径、证据子图和理由,为解释LLM的决策过程奠定基础,并检查幻觉 [32],[34],[35],[180]–[182]。

几位研究人员研究了使LLM能够直接推理知识图谱并生成关系路径以解释LLM答案的方法。每一步的推理路径有助于增强答案的可解释性和推理过程的透明度。通过观察每一步的推理决策,可以识别并解决由LLM推理引起的幻觉。RoG [32]、Knowledge Solver [181] 和Keqing [33] 都使用关系路径作为LLM响应的解释。具体来说,给定KG模式和用户查询,RoG [32] 引导LLM预测多个关系路径,使用文本提示如“请生成有助于回答问题的关系路径”。随后,LLM基于有效关系路径的检索结果生成最终答案。相反,Knowledge Solver方法 [181] 不同之处在于它使LLM逐步生成关系路径。Keqing [33] 首先将复杂问题分解为几个子问题,每个子问题可以通过KG上预定义的逻辑链来解决,然后LLM将根据子问题的答案生成带有关系路径的最终答案。Mindmap [180] 使用明显子图来解释LLM生成的答案,引入了基于路径和邻居的方法来获取几个明显子图。Mindmap中的LLM被提示合并这些明显子图,利用合并后的图生成最终答案。与以前逐步检索知识并获取答案的方法相比,KGR [34] 采取了不同的方法。首先,LLM直接生成草稿答案。随后,它从这个答案中提取需要验证的声明,并检索知识图谱的信息来纠正带有幻觉的声明。根据纠正后的声明,LLM调整草稿答案以获得最终答案。

上述研究以关系路径或明显图作为解释LLM决策过程和检查幻觉的基础。相比之下,一些研究探讨使用固有可解释模型而不是LLM来进行最终预测。ChatGraph [183] 提出了一种创新方法,以增强ChatGPT的文本分类能力和可解释性。它利用ChatGPT从非结构化文本中提取三元组,然后基于这些三元组构建知识图谱。为了确保分类结果的可解释性,ChatGraph避免直接使用LLM进行预测。相反,它利用一个没有非线性激活函数的图模型,并在文本图上训练模型以获得预测结果。给定一个问题和一组可能的答案,XplainLLM [184] 提出了一个解释模型来解释为什么LLM选择特定答案而拒绝其他答案。具体来说,该方法涉及基于问题中存在的实体和候选答案构建元素图。随后,采用GCN模型为元素图中的每个节点分配注意力分数。具有高注意力分数的节点被确定为原因元素,然后LLM被提示根据这些选定的原因元素提供解释。

为了评估LLM的透明度和可解释性,提出了各种基准。例如,Li等人 [35] 提出了一个名为知识感知语言模型归因(KaLMA)的新任务,并开发了相应的基准数据集。该基准评估LLM从知识图谱中获取引文信息以支持其答案的能力。KaLMA还提供了一个自动评估,涵盖了答案的文本质量、引文质量和文本-引文对齐等方面。此外,XplainLLM [184] 提出了一个数据集,以更好地理解LLM的决策过程,从“为什么选择”和“为什么不选择”的角度。

应用

在本节中,我们将介绍展示GFMs和LLMs潜力和价值的实际应用。如表2所示,推荐系统、知识图谱、科学人工智能和机器人任务规划等领域成为最常见的领域。我们将对每个应用进行全面总结。

推荐系统

推荐系统利用用户的历史行为来预测用户可能喜欢的物品[185]–[187]。在推荐系统中,图起着至关重要的作用,物品可以被视为节点,而点击和购买等协作行为可以被视为边。最近,越来越多的研究开始探索使用LLM直接进行推荐[188]–[191],或者利用LLM增强图模型或数据集以用于推荐任务[112],[115],[116],[192],[193]。

对于直接使用LLM作为推荐模型,刘等人[194]构建了任务特定提示,评估了ChatGPT在五个常见推荐任务上的表现,包括评分预测、顺序推荐、直接推荐、解释生成和评论总结。包等人[195]使用提示模板指导LLM决定用户是否会喜欢目标物品,基于他们的历史互动进行指导调整,以提高其推荐能力。

对于利用LLM增强传统推荐方法或数据集,KAR[192]利用LLM生成物品的事实知识和用户偏好的推理基础;这些知识文本然后被编码为向量,并集成到现有的推荐模型中。像LLM-Rec[117]、RLMRec[115]和LLM-Rec[116]这样的方法通过整合LLM生成的描述来丰富推荐数据集。相反,吴等人[193]利用LLM来压缩推荐数据集,其中LLM被用于合成内容推荐的压缩数据集,旨在解决在大型数据集上资源密集型训练的挑战。

虽然先前讨论的方法已经探索了利用LLM进行某些推荐任务或领域的可能性,但新兴的研究方向旨在开发推荐基础模型。唐等人[189]提出了一个基于LLM的领域无关框架用于顺序推荐。他们的方法整合了跨领域的用户行为,并利用LLM基于多领域历史互动和物品标题来建模用户行为。华等人[196]试图解决LLM偏见引入的推荐系统潜在不公平性。他们提出了一个反事实公平提示方法来开发一个无偏见的推荐基础模型。为了总结推荐基础模型领域的进展,黄等人[197]提供了对现有方法的系统概述,将它们分类为三种主要类型:语言基础模型、个性化代理基础模型和多模态基础模型。

知识图谱

具有强大文本生成和语言理解能力的LLM在知识图谱相关任务中得到了广泛应用,包括知识图谱补全[137],[198],[199],知识图谱问答[179],[181],[200]–[202],知识图谱推理[203]等。迈耶等人[204]介绍了LLM-KG-Bench,这是一个框架,可以自动评估模型在知识图谱工程任务中的熟练程度,如修复Turtle文件中的错误、事实提取和数据集生成。KG-LLM[199]被提出来评估LLM在知识图谱补全中的表现,包括三元组分类、关系预测和链接预测任务。金等人[200]提出了KG-GPT,利用LLM进行知识图谱上的复杂推理任务。ChatKBQA[201]为LLM在知识库问答上引入了一个生成-检索框架。吴等人[179]提出了一个增强知识图谱的LLM框架用于知识图谱问答,其中包括对LLM进行微调以将结构化三元组转换为自由形式文本,增强LLM对知识图谱数据的理解。LLM在知识图谱构建、补全和问答等任务中的成功应用为推进对知识图谱的理解和探索提供了强有力的支持。

受语言和视觉基础模型的启发,研究人员正在深入研究为知识图谱量身定制的基础模型的开发。这些GFMs旨在泛化到知识图谱中任何未见关系和实体。加尔金等人[205]提出了Ultra,通过利用关系之间的相互作用来学习通用图表示。这项研究基于这样一个观点:这些相互作用在不同数据集之间保持相似且可转移。

科学人工智能

人工智能的快速发展导致越来越多的研究利用人工智能来辅助科学研究[206],[207]。最近的研究应用LLM和GFMs于科学目的,如药物发现、分子性质预测和材料设计。值得注意的是,这些应用涵盖了涉及图结构数据的场景。

分子图是表示分子的一种方式,其中节点代表原子,边代表原子之间的键。随着LLM的出现,研究人员探索了它们在与分子图相关的任务中的表现。像MolReGPT[131]和GPT-MolBERTa[118]这样的方法采用类似的方法,将分子图转换为使用SMILES语言的文本描述。他们基于SMILES数据创建提示,要求LLM提供有关功能团、形状、化学性质等的详细信息。然后利用这些信息来训练一个较小的LM用于分子性质预测。与直接使用LLM进行预测的方法相比,ReLM[128]首先使用GNN预测高概率的候选产物,然后利用LLM从这些候选中做出最终选择。

除了上述研究,LLM还被进一步应用于药物发现和材料设计。布兰等人[100]提出了ChemCrow,这是一个集成LLM和18种专门工具的化学代理,用于药物发现、材料设计和有机合成等各种任务。InstructMol[208]提出了一个用于在药物发现中对齐语言和分子图模态的两阶段框架。最初,该框架保持LLM和图编码器参数固定,专注于训练投影器以对齐分子图表示。随后,在LLM上进行指导调整以解决药物发现任务。赵等人[209]提出了ChemDFM,这是化学领域的第一个对话基础模型。在广泛的化学文献和一般数据上进行训练,ChemDFM在分子识别、分子设计等各种化学任务中表现出色。

机器人任务规划

机器人任务规划旨在将任务分解为一系列高级操作,供机器人逐步完成[210]。在任务执行过程中,机器人需要感知周围环境的信息,通常使用场景图来表示。在场景图中,节点代表场景对象,如人和桌子,而边描述对象之间的空间或功能关系。使LLM用于机器人任务规划关键取决于如何在场景图中表示环境信息。

许多研究探讨使用场景信息的文本描述,并构建LLM生成任务计划的提示。查尔瓦扎基等人[211]引入了Graph2NL映射表,使用相应的文本表达来表示具有不同数值范围的属性。例如,大于5的距离值表示为“远”,小于3的表示为“可达”。SayPlan[212]将场景图描述为JSON中的文本序列,迭代地调用LLM生成计划,并允许自我纠正。甄等人[213]提出了一种有效的提示模板,Think!](c00a7fce9fca3cbf2d85cef4990b4af9.png)Net外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传Prompt,以增强LLM在任务规划中的表现。与依赖语言描述场景图信息的方法相比,GRID[[113]利用图变换器来编码场景图。它利用跨模态注意力来将图模态与用户指令对齐,最终通过解码器层输出动作标记。LLM强大的理解和推理能力展示了在机器人任务规划中的巨大潜力。然而,随着任务复杂性的增加,搜索空间急剧扩大,有效生成可行的任务计划成为一个挑战。

未来方向

在这项调查中,我们全面审视了LLM时代图机器学习的最新发展,揭示了这一领域的重大进展和潜力。通过利用LLM的力量,可以增强图机器学习以实现GFMs。由于这一研究方向仍处于探索阶段,因此该领域的未来方向可以是多样且创新的。因此,在本节中,我们深入探讨了这一颉有前景领域的几个潜在未来方向。

泛化和可转移性

尽管图机器学习已经应用于各种图任务,但一个显著的问题是它们在不同图领域之间的泛化能力和可迁移性有限[37]。与诸如自然语言处理和计算机视觉等领域不同,那些数据通常遵循统一格式(例如一系列标记或像素网格),图可以在性质上高度异质化。这种异质性体现在图的大小、密度以及节点和边的类型上,这在开发能够在各种图结构数据上表现最佳的通用模型方面提出了重大挑战。目前,大型语言模型已经展示了提高图模型泛化能力的巨大潜力。例如,OFA [121] 提供了一个解决方案,可用于跨多个特定领域的分类任务。然而,与大型语言模型相比,对图灵模型的泛化能力的探索仍然很有限。因此,未来的研究应该致力于开发更具适应性和灵活性的模型,能够有效地将从一个图类型(如社交网络)学到的模式应用到另一个图类型(如分子结构)而无需进行大量重新训练。

多模态图学习

最近的大型语言模型在推动图灵模型方面展现出了显著潜力。许多工作已经致力于将图数据转换为适合大型语言模型输入的格式,例如标记或文本[26],[79],[123]。然而,图中许多节点富含各种信息模态,包括文本、图像和视频。理解这种多模态数据可能有助于图学习。例如,在社交媒体平台上,用户的帖子可能包含文本内容、图像和视频,所有这些都对全面的用户建模至关重要。鉴于多模态数据的重要性,未来研究的一个有前途的方向是赋予大型语言模型处理和整合图结构与多模态数据的能力。目前,TOUCHUP-G [81] 对图学习中的多模态(即文本、图像)进行了初步探索。未来,我们期待开发一个统一模型,能够对更先进的图灵模型建模的通用模态进行建模。

可信度

最近将大型语言模型应用于图机器学习显著增强了图模型的建模能力,并扩展了它们在各个领域的实用性。尽管取得了这些进展,随着对这些模型的依赖不断增长,确保它们的可信度尤为重要,特别是在诸如医疗保健、金融和社交网络分析等关键领域[214],[215]。鲁棒性对于保护模型免受对抗性攻击、确保一致的可靠性至关重要。可解释性对于用户理解和信任这些模型所做决策至关重要。公平性对于模型在各种应用中的道德和有效使用至关重要。隐私对于合法合规和保持用户信任至关重要。因此,在图上开发可信的大型语言模型必须具备鲁棒性安全性可解释性公平性隐私性,以确保它们在各种应用中的安全和有效使用。

鲁棒性和安全性

最近将大型语言模型整合到图机器学习中在各种下游任务中表现出了良好的性能,但它们也极易受到对抗性扰动的影响,这引发了人们对它们的鲁棒性和安全性的重大关切。为增强这些模型的韧性,一些研究在图神经网络[216],[217]或大型语言模型[218],[219]中添加对抗性扰动进行对抗性训练。然而,这些方法可能对整合大型语言模型的图机器学习的新范式不够有效,因为漏洞可能来自图,如图中毒攻击[220],[221]和图修改攻击[222],[223],也可能来自语言模型,如提示攻击[224]和误导性文本数据[225]。为解决这些问题,需要开发更复杂的检测和防御机制,同时考虑大型语言模型和图的复杂性,以确保图机器学习的全面安全性和鲁棒性。

可解释性

如今,大型语言模型在各种应用中越来越多地应用于图机器学习,例如推荐系统[15],[226]和分子发现[80],[131]。然而,由于隐私和安全方面的考虑,应用提供者可能更倾向于提供一个不透露大型语言模型架构和参数的 API 版本,例如 ChatGPT。这种缺乏透明度可能使用户难以理解模型的结果,导致困惑和不满。因此,增强图机器学习的可解释性尤为重要,特别是在大型语言模型中。由于它们的推理和解释能力,大型语言模型有望在与图相关的任务中提供更好的可解释性。例如,P5 [226] 可以为推荐任务中的建议提供原因。未来的努力应该致力于使这些模型的内部工作更加透明和可解释,以更好地理解它们的决策过程。

公平性

随着大型语言模型在增强图机器学习向通用图模型的发展中变得普遍,人们对它们的公平性的担忧也在增长。公平性对于确保这些模型在处理复杂的、相互关联的图数据时不带有偏见或歧视至关重要[215]。最近的研究表明,语言模型[227],[228]和图神经网络模型[229]都有可能存在歧视和不公平现象[39]。因此,在文本和图上保持公平性是必要的。为增强大型语言模型的公平性,最近的研究包括重新训练策略,调整模型参数以获得无偏见的输出[230],实施对齐约束[231],并采用对比学习来减少模型训练中的偏见[232]。同时,像 FairNeg [229] 这样的研究也探索了改善推荐数据的公平性。尽管已经做出了努力,但在通用图模型中实现公平性仍然是一个需要进一步探索的重大挑战。

隐私

隐私在图机器学习中是一个重要问题,特别是考虑到这些模型可能会在生成输出时无意中泄露图数据中包含的敏感信息[233]–[235]。例如,集成大型语言模型的图机器学习可能会泄露用户的私人数据,如浏览历史或社交关系。在高度数据敏感的领域,如医疗保健或金融领域,这一问题尤为紧迫。为了减轻这些隐私风险,[236] 提出了隐私保护提示调整(RAPT)来通过本地差分隐私保护用户隐私。未来在大型语言模型增强的图机器学习中,还应专注于整合差分隐私和联邦学习等隐私保护技术,以加强数据安全和用户隐私。

效率

尽管大型语言模型在构建通用图模型方面已经证明了其有效性,但它们的运行效率,特别是在处理大型和复杂图时,仍然是一个重大挑战[237]。例如,使用像 GPT4 这样的 API 进行大规模图任务可能会在当前计费模型下导致高昂的成本。此外,部署开源大型模型(例如 LLaMa)进行参数更新或仅在本地环境中进行推断需要大量的计算资源和存储空间。因此,增强大型语言模型在图任务中的效率仍然是一个关键问题。最近的研究引入了诸如 LoRA [146] 和 QLoRA [238] 这样的技术,以更高效地微调大型语言模型的参数。此外,模型剪枝 [239],[240] 也是一种有前途的方法,通过从大型语言模型中删除冗余参数或结构来增加效率,从而简化它们在图机器学习中的应用。

结论

在本调查中,我们全面审查了大型语言模型时代图应用和图机器学习的最新进展,这是图学习中一个新兴领域。我们首先回顾了图机器学习的演变,然后深入探讨了大型语言模型增强图机器学习的各种方法。由于在各个领域具有显著的能力,大型语言模型有巨大潜力将图机器学习提升到通用图模型。我们进一步探讨了将大型语言模型与图结合的能力,突出它们在增强大型语言模型的预训练和推断方面的能力。此外,我们展示了它们在分子发现、知识图谱和推荐系统等各种应用中的潜力。尽管取得了成功,但这一领域仍在不断发展,并提供了许多进一步发展的机会。因此,我们进一步讨论了几个挑战和潜在的未来方向。总的来说,我们的调查旨在为研究人员和从业者提供系统全面的审查,激发这一有前途领域的未来探索。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/966294
推荐阅读
相关标签
  

闽ICP备14008679号