当前位置:   article > 正文

论文解读 | AAAI 2024:通过保留图生成模式微调图神经网络

论文解读 | AAAI 2024:通过保留图生成模式微调图神经网络

点击蓝字

4496a2d5c3e0a1edb32174d01529d651.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

e04e7596c1a1f8f46a4ea42f9822b4c5.jpeg

作者简介

孙逸飞,浙江大学博士生

内容简介

近来,预训练和微调图神经网络的范式已被深入研究并应用于广泛的图挖掘任务。它的成功通常归因于预训练和下游图数据之间的结构一致性,然而,这在许多现实场景中并不成立。现有的工作表明,预训练图和下游图之间的结构差异极大地限制了使用普通微调策略时的效果,这种结构差异加剧了由于模型在预训练图数据上过度拟合而难以适应数据量小的下游图数据的结构特性。在本文中,我们将这一结构差异的根本原因确定为预训练图数据和下游图数据之间生成模式的差异。此外,我们提出G-Tuning用于在精调过程中保留下游图的生成模式。给定下游图G,其核心思想是调整预训练的GNN,以便它可以重建图G的生成模式,即Graphon W。然而,众所周知,Graphon精确重建的成本极高。为了克服这一挑战,我们通过理论推导得出,任何给定的Graphon都可以被一组称为Graphon Bases的Graphon组合而成,因而可以通过基于最优传输的损失函数,有效学出Graphon Bases的线性组合来重建W。另外,我们还通过理论说明了G-Tuning在精调过程中可以很好地保留与下游任务效果相关的关键子图。与现有算法相比,G-Tuning在域内和域外迁移学习实验的效果表现上分别平均提高了0.5%和2.6%。

论文链接:

https://arxiv.org/pdf/2312.13583.pdf

论文内容

Background

万物皆是图数据。图神经网络(GNN)是一种强大的机器学习模型,它能够处理结构化数据。在过去的几年里,GNN在各个领域都实现了革命性的应用,包括社交网络、知识图谱、COVID图、互联网和经济网络等。通过将图数据转化为可解释和可操作的知识,GNN可以帮助我们更好地理解和应对现实世界中的挑战。

95175c210a0edb94873a299aef3bd415.png

Motivation

为了避免重复地为各种图数据设计一套相应的模型以降低成本,预训练和微调的范式就应运而生,广大研究者希望通过预训练中的自监督任务,学习到预训练语料中的共同特性,并将所学知识应用到各种各样的下游数据和任务中。下图展示了这样一种范式,但是可以在很多情况下,上下游图数据或任务之间存在一定差异,这些差异可能会导致精调效果不好。

d182e1a95fb92b692a2107c5f48849de.png

本工作通过观察实验发现,现有的预训练模型在下游任务上取得了差强人意的效果,是因为预训练数据和下游数据之间存在较大的结构差异。因此希望通过一种模型或算法可以弥合这一差异,从而让预训练图模型发挥更好的效果。

c156f56bfbf13ccfc1d95b132a7e49bb.png

为了解决这个问题,作者提出先定量描述这种图结构差异,从而在精调过程中让预训练模型保留更多下游数据的图结构信息。通过这种方式,可以提高迁移学习的性能,使模型更好地适应新的数据环境。

Observations

作者试图通过一些观察找到能够衡量图结构差异的图结构信息描述方法。首先,通过统计一些指标来尝试找到由于上下游结构差异导致效果不好的本质原因。左侧的热图显示了“上下游图结构在某一层面上的差异程度”与“精调效果相比无预训练的监督学习效果提成的程度”之间的关系。同一行表示同一下游数据,不同列表示不同预训练数据与下游数据在某一指标上的差异。每个格子代表皮尔森相关系数,系数是前面双引号中两者的相关性系数。具体可以看其中一个蓝色框柱的格子,从其所在行可以看出下游数据是Cornell,从所在列可以看出是在衡量上下游数据之间Graphon的差异;把计算相关性系数的所有数据点画出来就是右图,右图中纵轴代表着不同的预训练数据对相同的下游数据相比于不预训练所带来的性能提升,横轴代表着不同预训练数据与相同的下游数据之间Graphon的差异;这个拟合的直线的斜率和左图中的相关性系数相同。

33d4d335c74e6cd597d0a9f0aed3c1d5.png

通过分析可知,相关性系数或是斜率为负代表上下游数据在某层面差异越大,给下游任务带来的提升性能越少。在所有指标中,只有Graphon(即Generative Patterns)在各种下游数据中(左图)都保持着负相关的情况,而其他指标则是有正有负。因此,作者认为其最初探寻的描述上下游差异本质即为graphon差异。

Graphon


Graphon即“graph function”的缩写,代表着一个概率密度函数,输入是二元输入,输入和输出范围都在0-1之间,意味着两个节点信号之间是否成“边”的概率。如下图所示,如果给左上角的图中不断地按照当前结构模式来添加节点,中间所示的邻接矩阵的锯齿状的轮廓会逐渐变得平滑。当节点增加到无限多的时候,类似于描述“极限情况”,邻接矩阵变为最右侧的图的样子。由于Graphon没有closed form,也即无法在计算机中用这种function的方式来存储,所以一般情况下都利用矩阵存储Graphon。

88453dd0ad260321fd86c3f565032c50.png

Preserve Generative Patterns

Graphon能够表达Generative Patterns(上文提到的图生成模式),并且作者希望在微调的过程中能够保存这种生成模式。由于上游和下游可能存在较大结构差异,如果在微调的过程中,可以很好地保留下游的Generative Patterns或者下游的结构特性,那就有可能取得较好的效果。

c5bfa9725ddad48842ffea2fab906f40.png

具体来说,作者提出在精调中加一个辅助的重建损失,让下游得到的embedding能够重建下游图数据本身的Graphon,这就代表下游在微调的过程中让预训练模型学习到了下游数据的Generative Patterns。但是要想完整地学习到Graphon所具备的参数量较多且语义信息复杂等特点,作者希望通过设计一种高效的方法来重建。

Theoretical Derivation


在文中,作者给出了详细的理论推导,基于泰勒展开式得到结论:任何一个Graphon都可以被重建为一系列Graphon的线性组合,这些Graphon被称为Graphon Bases。最后的余项可以忽略不计。这些Graphon Bases可以理解为捕捉了更细致、更单一的图结构特征,将这些更单一的Bases组合起来就得到了完整的、更复杂的Graphon。

5c7e490c766638071e79cafffa4a1d34.png

G-Tuning

基于前面的结论,既然W可以被展开,所以作者考虑,在重建的时候尝试学习这种线性组合中的Bases和其对应的线性组合权重。由于这些Bases应该包含的信息是原图中更单一的结构特性,因此作者通过从原图中采样一部分子图来初始化这些Bases,且这些Bases和其对应权重都是可学习的,通过loss函数的优化使得模型重建更加准确。

b6970e702d2d4c93638df6e56d21b2c4.png

这样就很容易分析整个模型的过程,下游的数据经过预训练模型,得到每个节点的embedding,再经过Graphon Encoder的编码得到图级别的信息,也即Bases的系数,(即前面所提及的泰勒展开式的系数)。Bases一方面是可学的,另一方面它的初始化与下游图结构有着密切关系。先从下游图结构中提取一部分信息初始化,在这过程中不断更新Bases,并将系数与Bases线性组合,就可以得到重建的Graphon,再与原始下游图数据直接得到的Oracle Graphon(Graphon的groud truth)计算GW-loss。其中,从下游图数据得到Oracle Graphon这一过程已有很多工作使用。通过这样的一个分支,可以让预训练模型在原本下游任务上微调的过程中,仍然能够保留下游图数据的Generative patterns。

Theoretical Analysis

为了证明这种框架是有效的,本文从理论上推导了该框架对于下游任务所能带来的积极效果。作者定义了“Discriminative subgraph”。“subgraph”与标签是息息相关的,“Discriminative”意味着“subgraph”有一定的分辨性,这就表示在下游任务中捕获到的信息可以帮助下游任务获得更准确的判断结果。经过推导证明,在模型运作的过程中,可以在一定程度上保留Discriminative subgraph,也就从理论上说明了所提框架可以促进下游任务性能的提升。

c4a25b58fa29705e4527cf430d4af255.png

Experiments

本文先在域内迁移常用的分子图Benchmark上进行实验,预训练数据为ZINC 15,下游数据是8个二分类分子图数据。从实验结果可以看出,所提方法相较于其他精调方法大部分都有提升,且效果的平均排名最高。值得注意的是,作者还尝试了在不进行预训练的情况下,使用文中提出的辅助任务,也获得一定的效果提升;某些情况下甚至优于普通微调,这说明文中提出的方法确实可以帮助下游任务提高效果。

4ecc856eeb6d826cadd8faf2a5984b36.png

此外,本文进一步考虑,鉴于上下游图数据的差异很重要,那么在上下游差异越大时,甚至不来自同一领域时,效果是否越好?作者在文中也进行了验证。作者使用GCC作为预训练模型和方法,主要因为其不限制上下游的使用范围,仅使用图的结构。预训练数据也直接使用GCC文章中的预训练数据。此处使用的下游数据涉及Movie、Chemistry、CV、Social等多个不同领域,从而达到下游数据与预训练数据差异较大的情况设定。从实验结果也可以看出,使用该框架所取得的提升效果相比上一个同领域实验更加显著,这也就验证了前面的假设:上下游图数据结构差异越大,所提方法越有效。

7800d6245b315dfdb63a6149eeb7a06f.png

Efficiency

从下图可以看出,总体而言,本文的方法效率不是最佳,但也略有优势。此外,还可以从表格中观测到,随着图数据的增多,本文所提方法的时间效率优于其他方法,验证了该方法的稳定性。其中,合成Oracle Graphon是所提框架中相对来讲所耗费时间最多的一部分,但是这部分并非文章的创新点,而是使用了现有的方法。因此,设计更快的合成Oracle Graphon的方法也是未来可以继续探索的工作。另外,如果有更准确,更快的合成方法出现,我们的框架也会得到相应提升。

be6cc139fb2222df68075335ec0c329b.png

Ablation Study

在消融实验中,通过改变Encoder中不同的GNN,以及变换不同的loss,发现G-Tuning的效果最好。GIN因其能够很好地捕捉图结构,所以可以达到最好的效果;GW-loss能够更好地计算Graphon语义空间的差异,所以相对于其他分布差异计算loss效果更好。

f7dcba9897e5d56da2777dde10eba050.png

另外,文中还研究了从2到512个不同的Graphon Bases的效果。正如文中定理1所分析的,较多的Bases可以表示更多的信息,并更好地逼近oracle Graphon。上图显示,当Bases的数目从2增长到32时,性能也随之增加。然而,当Bases数量过多时,效果甚至有下降趋势。我们将这种现象归因于参数数量增加所带来的优化困难。此外,随着基数的增加,G-Tuning的运行时间呈指数增长(绿色曲线)。因此,G-Tuning只需要少量的Bases来提高微调性能。其他实验的完整分析见论文原文。

3085d65873e1b2f021ced2eb5c0f03b7.png

Conclusion

本文从图数据的图生成模式方面入手,首先指出下游图数据的生成模式是缩减预训练和微调之间差异的关键,并通过理论推导,提出基于graphon的新精调策略G-Tuning,通过保留图数据的Generative patterns,使预训练好的GNN更好地适应下游数据集;作者从理论层面出发设计了一种模型来高效重建Graphon,并且取得了有效且泛化性较好的结果。

提醒

点击“阅读原文”跳转到00:56:11

可以查看回放哦!

往期精彩文章推荐

e9d54644d7f2e0c379dec165995660ee.jpeg

记得关注我们呀!每天都有新知识!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了1700多位海内外讲者,举办了逾600场活动,超700万人次观看。

4fb72ed03d68a4232ad1c028693d73a3.png

我知道你

在看

~

c29b02779dabaaf90f5891c674b58548.gif

点击 阅读原文 观看回放!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/375031
推荐阅读
相关标签
  

闽ICP备14008679号