赞
踩
论文名 | Do Transformers Really Perform Bad for Graph Representation? |
作者 | |
简介 | transformer在图表征中的运用 |
transformer最初被作为建模序列的模型,作者认为将其运用到图中最重要的是合理的运用图中的结构信息到transformer中。self- attention对每个点仅仅计算节点之间语义的相似度,没有考虑任何结构信息。作者提出3种有效的机构编码方式,中心性编码,空间位置编码,边特征编码。
明确下模型目标是表征整图
在transformer中注意溜系数是基于节点之间语义关系建立的,节点中心性可以衡量一个节点在图中的重要性,是理解图的一个重要特征。名人在社交网络中会有更大的影响力。作者采用节点度作为一个附加信号(特征),具体的作者根据每个节点的入度出度两个值的embedding向量,构建中心性编码。中心性编码直接与特征相加。
(神似相对位置编码)
transformer的一个有点就是全局的一个接受野,但是一个副作用是必须一个显示的位置编码来指定位置依赖。例如序列数据中使用的绝对位置编码(三角函数的编码)。图数据中节点并不是序列,而是多维空间的中点和边。为了编码这种结构信息,采用空间编码。对图G建立一个\phi(v_i,v_j)表示两个节点之间空间相关性,论文中使用节点之间的最短路径(SPD)表示,不可达时为-1,为每个值分配一个可学习向量,然后作为注意力系数的偏置项,如下
好处:1、SPD是局部图 2、b是可学习的,能自适应决定加强关系或者减弱关系。
边在图中也是具有特征的,例如分子图中的不同化学键。为了编码这样的特征,目前有两种方法,一种是将边特征加入到相应的节点特征中,另一种这是在每个节点聚合节点特征时加入边的特征,但是这些方法都是使用将边的特征运用到其相邻节点,这不是一种有效的利用边特征表征整图的方法。作者的做法是将边的特征也编码到attention层里。具体的,对每个点对,找一条最短路径SP,计算最短路径中每条边特征与一个可学习向量(注意是整个图有多少边就有多少条向量)的点积,计算这些点积的均值。
layer normalization被放到了多头注意力和前馈神经网络前,据说是更有效的结构,如下公式
并且FFN层中将隐藏层维度d_ff设置为d_model相同大小。
graphormer中添加一个特殊的节点[VNode],让所有节点都于VNode相连,但消息传播(AGGREGATE-COMBINE )过程视为正常节点处理,这样VNode最后一层的特征就能够作为最后的整图表征。类似BERT中的[CLS],另外在空间编码时,VNode也其他节点的链接视为独特的,有单独的b。
模型是否回比GNN有效,graphormer通过选择合适的权重和距离函数\phi,graphormer层可以表示GNN中的聚合方式。
虚拟节点的好处在于,它能够聚合整图的信息,然后再传播给每个节点。通过选择合适的权重,每个节点的表征节点都能表示mean readout函数。
OGB- LSC任务,目前最大的图级别的预测任务,包含超过3.8M图。
- VN表示使用虚拟节点,对于过平滑问题作者没遇到,可能是注意力机制的好处吧。
图表征任务
消融实验
https://arxiv.org/pdf/2106.05234.pdf
让研究人员绞尽脑汁的Transformer位置编码 - 科学空间|Scientific Spaces
https://www.microsoft.com/en-us/research/project/graphormer/
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。