当前位置:   article > 正文

[GNN论文阅读]DROPEDGE: TOWARDS DEEP GRAPH CONVOLUTIONAL NETWORKS ON NODE CLASSIFICATION_dropedge: towards the very deep graph convolutiona

dropedge: towards the very deep graph convolutional networks for node classi

ICLR 2020
代码地址 论文地址

DROPEDGE: TOWARDS DEEP GRAPH CONVOLUTIONAL NETWORKS ON NODE CLASSIFICATION

一、主要工作

  • 提出Dropedge方法,通过随机去除边 at each training epoch充当一个数据放大器data augmentation technique和message passing reducer,理论上证明其要么降低了过平滑的收敛速度,要么减轻了它造成的信息损失。
  • 实验表示了它配合其他GCN(many other backbone models)方法的效果。 (e.g.GCN, ResGCN, GraphSAGE, and JKNet)
  • 提出了一种衡量过平滑的方式。

二、研究动机

过拟合和过平滑是deepGCN用于节点分类的两个主要阻碍。本文的动机是分析阻碍更深的GCNs执行得好的因素,并开发解决这些问题的方法。
过拟合:太适合训练数据了,泛化能力差。使用复杂的模型去拟合少量数据时会造成泛化能力变差,是深度学习模型中常见的问题。表现为训练数据和验证集上表现很好,测试集表现很差。
过平滑:因为每个节点用于聚合的邻居节点重合度较高,很容易导致每个节点学出来的特征表示是一致的。这样节点的特性就被掩盖掉了,对节点本身重要的信息的占比降低,在同一个连通分量的节点之间区分度低,表现趋同。无论测试集还是训练集的表现都不好。也就是说随着层数的不断加深,所有节点的表示最终会收敛到一个固定点,得到的节点表示就和输入特征无关了(应该可以理解为与给下一层的输入特征无关,因为已经表现趋同了),而且还会导致梯度消失。

三、创新点

公式化的表现了过平滑的一种衡量策略。提出DropEdge并对它能防止过平滑进行公式证明。

四、具体思路

在这里插入图片描述
p是不变的一个超参数,论文中只有在进行防止过平滑效果的可视化实验室,用p=0.8说明。没看到在其它实验有对p设置的说明。
方一:每次迭代所有层共享同一个邻接矩阵。在这里插入图片描述
V是原始图中的总边数,设置p为随机撤边率,Vp个A中非0元素置为0,即A <-- Adrop实现每次epoch迭代的撤边。
邻接归一化( re-normalization trick on Adrop),我猜是指把A换成Adrop代入下式:在这里插入图片描述

方二:Layer-Wise DropEdge,逐层操作。每层的在这里插入图片描述不同,它要加一个上标(L)。

  • 防止过拟和的解释:

GCN聚和邻居节点信息,sum(weight x 节点特征),DropEdge用一个随机的全聚合的子集替代全聚合。统计上讲,邻居聚合的期望是由p改变的。它把邻居聚合的期望变成*p(p为撤边率)。而这在权重标准化之后会被去除。TODO This multiplier will be actually removed after weights normalization, which is often the case in practice.所以,DropEdge不改变邻居聚合的期望,是一个用于GCN训练的无偏数据放大器。像图片增强技巧一样可以防止过拟和。(还减少了图卷积时信息的传递,从而缓解了过平滑问题。)

  • 防止过平滑的解释:
    4定义1定理
    在这里插入图片描述

定义1:子空间M={EC|C属于R(MxC),E属于R(NxC)} 是R NxC的M维子空间,M<=N ,C为通道数(特征维数),N为输入图的结点数
(通过正交阵E搞这个定义,好奇怪啊,其实M=EC也是属于R(NxC))
定义2:估计定义1的M是用来和H(p )隐层特征作距离计算的,给定一个e和一个L,p>=L,计算它们的距离,距离<e称为e-平滑。在这里插入图片描述
定义3:在定义2中对应最小距离的p,称为e平滑层。
定义4:比定义3更大的p称为relaxed-e平滑层。定义如下:λ为Ahat的第二大特征值。在这里插入图片描述

定理1
在这里插入图片描述
带撇的为本文方法得到的。
第一行说明本文的方法在更大层达到放松的e平滑,平滑和过平滑挂钩,这似乎说明,本文的方法能更晚过平滑,即不易过平滑->较少过平滑的收敛速度(过平滑收敛意味着同一连通分量的节点表示十分相近没有区分度->这一点既可以通过相邻层同一节点表示相近(欧式距离接近)又可以通过同层的同一连通分量上的节点表示相近来说明)。
第二行,原始空间和收敛子空间的维度之差(例如 N−M)衡量了信息的损失量,这个差越大说明信息损失越严重。本文的方法信息损失更小,因为收敛子空间纬度大。
在这里插入图片描述
图中的斜率能体现过平滑收敛速度。纵轴为中间层之间的欧氏距离。
通过比较不同层之间的差异衡量过平滑的程度,差别越小说明过平滑越严重,节点特征表示几乎不变。
(a)(b)图能体现丢边方法具有更大层之间的距离以及更低的过平滑收敛速度。
(b)普通GCN方法5和6层之间的距离接近于0,而丢边方法的距离没有消失到0。

五、理论分析

定理一证明:




TODO maybe

  • 与其他drop方法讨论
    DropEdge vs. Dropout
    Dropout通过把特征维度随机设置为0,减轻了过拟合,但是没有改变邻接边,所以不能对过平滑起作用。DropEdge可视作a generation of Dropout from dropping feature dimensions to dropping edges。他们能兼容,后有实验。
    DropEdge vs. DropNode
    以下三种称为DropNode,Dropnode可以看作一种具体的Dropedge,因为与节点关联的edge也drop掉了。但是dropnode是点导向的,dropedge是边导向的,而且它能保留所有节点特征for training,只要他们一次装入内存,故更灵活。
    DropEdge没有以下的缺点,因为所有边的采样是parallel的。在这里插入图片描述

    DropEdge vs. Graph-Sparsification
    Graph-Sparsification图稀疏性 在保持所有输入图信息的时候选择一些不必要的边移除,选择的过程是繁琐的,once those edges are discarded the output graph keeps unchanged。
    在这里插入图片描述

六、实验效果


此文用全监督的训练方法,同 in Huang et al. (2018) and Chen et al. (2018)。
HuangHuang文章中说的监督
在这里插入图片描述
ChenChen中的

(1) 图大小和特征类型都不同:
citation datasets:Cora, Citeseer and Pubmed (Sen et al., 2008)训练are transductive
(2)预测Reddit社会网络中属于哪个社区的不同posts(Hamilton等人,2017年)训练 is inductive

average absolute improvement over all backbones by DropEdge on each dataset under
different numbers of layers

在这里插入图片描述
在这里插入图片描述
Comparison with SOTAs

GCN, FastGCN, AS-GCN and GraphSAGE

在这里插入图片描述
(a)说明DropEdge和Dropout的兼容性,一起用效果更好
(b)与Layer-Wise (LW) extension of DropEdge做对比实验,
LW验证损失基本相同,训练损失更小,不过本文还是不用LW版因为LW需要每层采样,需要更多时间,而且有过拟合风险。
在这里插入图片描述

  • 相关工作总结

作者说:GCN是很好的图表示学习方法,但是deepGCNs在节点分类任务中还是太shallow,不够sufficiently expressive architecture

在这里插入图片描述

关于DeepGCNs

在这里插入图片描述

关于点采样的方法

在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/241401
推荐阅读
相关标签
  

闽ICP备14008679号