赞
踩
北京大学 李荆
《DynGCN: A Dynamic Graph Convolutional Network Based on Spatial-Temporal Modeling》
Jing Li, Yu Liu, and Lei Zou
原文《DynGCN: A Dynamic Graph Convolutional Network Based on Spatial-Temporal Modeling》收录于WISE 2020。
图卷积神经网络(Graph Convolutional Networks, GCN)将CNN中的卷积概念扩展到了图中,通过定义作用于图上的卷积操作来提取节点的邻域信息,从而将节点映射到低维向量表示。正是由于图卷积操作对图结构以及图上的邻域信息的有效提取,使得GCN在图表示学习领域表现出强大的优势,在很多图挖掘任务,如节点分类、边分类、链接预测、聚类等有最优的表现。
然而大多已有的图神经网络算法都是基于静态图设计的,也即模型对图的建模和表示学习都假设图结构是不会改变的。然而,现实世界中提取的图都自然的是动态的。图中的节点和边都会随着时间而不断的有插入和删除,节点属性和边属性也会随时间而改变。例如,金融网络中的用户间会不断进行交易行为,社交网络中的用户会不断发展新的好友关系等等。在这些场景中,为了学习到更丰富的节点表示,图模型需要关注的不仅仅是图结构的信息,还应该建模图中的历史信息。
模型将动态图上的表示学习建模为时间和空间信息的聚合,同时加入模型自适应机制去随着图结构的变化而更新模型参数。模型基本架构如上图所示,由空间卷积层和时间卷积层组成,模型第一层是一个空间卷积层来聚合节点的邻居信息,同时利用GRU单元去自适应的更新参数。输出的向量再被输入第二层的时间卷积层,以聚合当前时刻和历史时刻的信息。由此,每个节点的表示都融合了它当前的邻居信息以及它历史时刻的邻居信息。最后我们再在其上加上一层自适应的空间卷积层来聚合邻居的当前时刻和历史时刻信息
在我们的模型中,将动态图表示为多个图的序列,每个图为一个时间步下的snapshot。
我们利用GCN的图结构提取优势来学习每个时间片下的结构信息。形式化地,给定t时刻的图及其邻接矩阵。GCN的第l层输入是第l-1层输出的向量和邻接矩阵,输出是更新后的节点向量。第l层的运算可以表示为如下:
网络的第一层的输入是t时刻节点的特征矩阵,在这个矩阵的每一行是每一个节点的K维特征向量。经过L层的图卷积层,对于每一个时间切片的输出向量中都聚合了节点的邻居信息。
为了将图的动态性加入考虑,空间卷积层进一步在静态GCN的架构上加入更新机制。考虑到当图结构改变时,卷积操作的权重参数也应该动态的进行更新以适应新的图结构。动态图卷积层采用RNN组件来对GCN模型的权重参数进行更新,准确来说,我们对于每一个和,RNN组件都以参数的初始值作为输入,输出更新后的。虽然RNN的多种实现都能达到这个目的,例如LSTM和GRU,我们的架构采用GRU的实现方式。
时刻t第层的权重更新方式如下(上标代表第层图卷积层,下标t表示第t个时间步):
其中:
权重矩阵的更新可以看作是将标准的GRU操作作用在矩阵的每一列,因为标准GRU操作是针对向量与向量之间的,而在更新GCN权重矩阵的过程却是矩阵与矩阵之间的操作。时刻t的权重矩阵作为GRU的隐状态,而t时刻第l层的节点表示矩阵则作为GRU单元的输入以引入当前时刻的信息,最后上述GRU单元输出更新后的结果作为下一时刻的权重矩阵。由于权重矩阵与节点表示矩阵有不同的列的维度,计算中加入了对的采样,以达到和同样的列数。
GCN模块自下而上聚合节点的邻居信息,而GRU模块则随着时间维度自左向右更新权重参数,由此空间卷积层动态的获得了节点的邻域信息。
时间卷积层由一个1D的全连接卷积模块(1D fully-convolutional unit)和一个因果卷积模块(causal convolutional unit)构成,1D的全连接卷积操作保证了输出层与输入层有相同的序列长度,而因果卷积操作则保证了在t时刻的输出都只由它之前的时刻(包括当前时刻)卷积得到,由此保证由当前时刻的信息和历史信息去建模未来时刻的预测。在因果卷积阶段,为了能使网络结构对于更长的时间序列也有更长更灵活的感受域,因果卷积中加入了扩张卷积(dilated convolutions)的设置,随着网络层数的增加,卷积的扩张(dilation)值设置为2的层数幂次方。下图为一个时间卷积的示例,其中每层的dilation size依次为1,2,4,卷积核大小为2.
我们可以简单的通过增加卷积核大小或者增加扩张因子大小来增大卷积的感受域,这也为模型在处理长的时序序列带来极大的灵活性。同时,卷积操作支持对序列的并行运算,因此在效率上也有极大的提升。
在动态图节点表示学习中提取时序信息是一个非常关键的问题。大多已有的模型都采用RNN的架构去建模时序变化,然而,基于RNN的架构由于其复杂的门机制,在运算上更加耗时,也更消耗内存。同时,标准的RNN在训练中容易出现梯度消失的问题,并且只能获取较短时间的记忆,而对长时间的序列无法很好的处理。虽然LSTM和GRU这类变体在一定程度上解决了梯度消失和短期记忆的局限,但它们相对于基于CNN的架构在运算速度,内存消耗和性能表现上依然处于劣势,因此我们的模型采用基于CNN的架构(即TCN结构)来获取历史信息。
TCN与RNN的架构相比,由于卷积操作的可并行性,带来了运算速度上的极大提升,同时TCN的运算对内存的消耗也更小。更重要的,TCN结构对于历史信息的感受域大小也更灵活,能通过简单的增大卷积核大小或者增加扩张卷积的dilation size来增大感受域,从而获取更长时间序列上的信息。另一方面,RNN的架构对于动态性的建模是将历史信息单纯的归纳入每个时刻的Hidden state中,通过Hidden state来记忆历史信息。而TCN的卷积结构则是通过灵活性的信息聚合方式,将历史信息与当前时刻的信息进行结合,从而提取到动态图中的时序信息和结构信息,也从另一个角度将时间卷积与空间卷积进行了统一。
对于模型性能的评估,采用了链接预测和边分类两类任务,在三个来自不同领域的数据集上进行了实验。
实验采用了三个数据集,两个比特币交易平台的数据,以及一个路由交换数据集,数据集信息如下:
实验在三个不同领域数据集上,进行了链接预测任务和边分类任务,可以发现,模型效果较baseline有了很大的提升,进一步,通过模型在边分类任务中F1和accuracy值随时间的变化,也可以发现,模型在每个时间步都有比较稳定的表现,这也表明了对图结构动态性建模,以及时间空间信息聚合的有效性。
本文提出了一种动态图卷积神经网络模型,将动态图上的表示学习建模为时间和空间信息的聚合。模型结合了图卷积神经网络(GCN)的空间卷积提取图上的结构信息,以及时间卷积神经网络(TCN)的因果卷积提取时序上的历史信息,同时,在空间卷积层加入了自适应的模型更新机制,使得模型参数随着图结构的变化而自适应地更新。在几个不同领域数据集上进行链接预测和边分类的实验表明,模型较已有方法有很大的性能提升。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。