赞
踩
过拟合和过平滑是deepGCN用于节点分类的两个主要阻碍。本文的动机是分析阻碍更深的GCNs执行得好的因素,并开发解决这些问题的方法。
过拟合:太适合训练数据了,泛化能力差。使用复杂的模型去拟合少量数据时会造成泛化能力变差,是深度学习模型中常见的问题。表现为训练数据和验证集上表现很好,测试集表现很差。
过平滑:因为每个节点用于聚合的邻居节点重合度较高,很容易导致每个节点学出来的特征表示是一致的。这样节点的特性就被掩盖掉了,对节点本身重要的信息的占比降低,在同一个连通分量的节点之间区分度低,表现趋同。无论测试集还是训练集的表现都不好。也就是说随着层数的不断加深,所有节点的表示最终会收敛到一个固定点,得到的节点表示就和输入特征无关了(应该可以理解为与给下一层的输入特征无关,因为已经表现趋同了),而且还会导致梯度消失。
公式化的表现了过平滑的一种衡量策略。提出DropEdge并对它能防止过平滑进行公式证明。
p是不变的一个超参数,论文中只有在进行防止过平滑效果的可视化实验室,用p=0.8说明。没看到在其它实验有对p设置的说明。
方一:每次迭代所有层共享同一个邻接矩阵。
V是原始图中的总边数,设置p为随机撤边率,Vp个A中非0元素置为0,即A <-- Adrop实现每次epoch迭代的撤边。
邻接归一化( re-normalization trick on Adrop),我猜是指把A换成Adrop代入下式:
方二:Layer-Wise DropEdge,逐层操作。每层的不同,它要加一个上标(L)。
GCN聚和邻居节点信息,sum(weight x 节点特征),DropEdge用一个随机的全聚合的子集替代全聚合。统计上讲,邻居聚合的期望是由p改变的。它把邻居聚合的期望变成*p(p为撤边率)。而这在权重标准化之后会被去除。TODO This multiplier will be actually removed after weights normalization, which is often the case in practice.所以,DropEdge不改变邻居聚合的期望,是一个用于GCN训练的无偏数据放大器。像图片增强技巧一样可以防止过拟和。(还减少了图卷积时信息的传递,从而缓解了过平滑问题。)
定义1:子空间M={EC|C属于R(MxC),E属于R(NxC)} 是R NxC的M维子空间,M<=N ,C为通道数(特征维数),N为输入图的结点数
(通过正交阵E搞这个定义,好奇怪啊,其实M=EC也是属于R(NxC))
定义2:估计定义1的M是用来和H(p )隐层特征作距离计算的,给定一个e和一个L,p>=L,计算它们的距离,距离<e称为e-平滑。
定义3:在定义2中对应最小距离的p,称为e平滑层。
定义4:比定义3更大的p称为relaxed-e平滑层。定义如下:λ为Ahat的第二大特征值。
定理1
带撇的为本文方法得到的。
第一行说明本文的方法在更大层达到放松的e平滑,平滑和过平滑挂钩,这似乎说明,本文的方法能更晚过平滑,即不易过平滑->较少过平滑的收敛速度(过平滑收敛意味着同一连通分量的节点表示十分相近没有区分度->这一点既可以通过相邻层同一节点表示相近(欧式距离接近)又可以通过同层的同一连通分量上的节点表示相近来说明)。
第二行,原始空间和收敛子空间的维度之差(例如 N−M)衡量了信息的损失量,这个差越大说明信息损失越严重。本文的方法信息损失更小,因为收敛子空间纬度大。
图中的斜率能体现过平滑收敛速度。纵轴为中间层之间的欧氏距离。
通过比较不同层之间的差异衡量过平滑的程度,差别越小说明过平滑越严重,节点特征表示几乎不变。
(a)(b)图能体现丢边方法具有更大层之间的距离以及更低的过平滑收敛速度。
(b)普通GCN方法5和6层之间的距离接近于0,而丢边方法的距离没有消失到0。
定理一证明:
TODO maybe
与其他drop方法讨论
DropEdge vs. Dropout
Dropout通过把特征维度随机设置为0,减轻了过拟合,但是没有改变邻接边,所以不能对过平滑起作用。DropEdge可视作a generation of Dropout from dropping feature dimensions to dropping edges。他们能兼容,后有实验。
DropEdge vs. DropNode
以下三种称为DropNode,Dropnode可以看作一种具体的Dropedge,因为与节点关联的edge也drop掉了。但是dropnode是点导向的,dropedge是边导向的,而且它能保留所有节点特征for training,只要他们一次装入内存,故更灵活。
DropEdge没有以下的缺点,因为所有边的采样是parallel的。
DropEdge vs. Graph-Sparsification
Graph-Sparsification图稀疏性 在保持所有输入图信息的时候选择一些不必要的边移除,选择的过程是繁琐的,once those edges are discarded the output graph keeps unchanged。
此文用全监督的训练方法,同 in Huang et al. (2018) and Chen et al. (2018)。
Huang
Chen
(1) 图大小和特征类型都不同:
citation datasets:Cora, Citeseer and Pubmed (Sen et al., 2008)训练are transductive
(2)预测Reddit社会网络中属于哪个社区的不同posts(Hamilton等人,2017年)训练 is inductive
average absolute improvement over all backbones by DropEdge on each dataset under
different numbers of layers
Comparison with SOTAs
GCN, FastGCN, AS-GCN and GraphSAGE
(a)说明DropEdge和Dropout的兼容性,一起用效果更好
(b)与Layer-Wise (LW) extension of DropEdge做对比实验,
LW验证损失基本相同,训练损失更小,不过本文还是不用LW版因为LW需要每层采样,需要更多时间,而且有过拟合风险。
作者说:GCN是很好的图表示学习方法,但是deepGCNs在节点分类任务中还是太shallow,不够sufficiently expressive architecture
关于DeepGCNs
关于点采样的方法
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。