码创造者

这个屌丝很懒，什么也没留下！

热门标签

S3GCL Spectral, Swift, Spatial Graph Contrastive Learning

作者：码创造者 | 2024-08-04 23:46:13

踩

发表于:PMLR24
推荐指数: #paper/⭐⭐⭐
总结做了什么:
利用gcn+对比学习训练mlp来提取特征嵌入,使得训练完毕使用的时候,可以更快的得到嵌入(类似于师生蒸馏的加速).其中,结合了异配图的chebnet2,以及高通低通过滤,和非对称对比学习等
文章配图
看图解释:作者将全通的MLP训练得到的嵌入和低通过滤器和高通过滤器生成的嵌入进行对比,来训练MLP的嵌入.这个思想特别巧妙,角度切入很好

方法

切比雪夫多项式:

$\sum_{k=0}^Kw_kT_k(\tilde{\mathbf{L}})\mathbf{X}$ 其中, $\hat{\mathbf{L}}=2\mathbf{L}/\lambda_{max}-\mathbf{I}$ . $T_{\boldsymbol{k}}(x) = 2xT_{\boldsymbol{k}-1}(x) -T_{\boldsymbol{k}-2}(x)$ ,其中 $T_0(x) = 1 \mathrm , T_1(x) = x$
在切比雪夫差值中,将参数w重新参数化:
$w_k=\frac2{K+1}\sum_{j=0}^K\gamma_jT_k(x_j)$
由于在无监督学习中,难以用标签来促进参数化.我们提出以下两个要求:1.参数 $\gamma$ 在0-2之间.2.低通过滤器的 $\gamma$ 随着j的增加逐渐减小(2->0),而高通的 $\gamma$ 随着j的增加逐渐增大(0->2).我们因此提出了余弦相似度相初始化参数.
$\gamma_j^h=\sigma(\beta_a^h)+\frac12\sigma(\beta_b^h)(1+\cos\left((1+j/K)\pi\right))$
$\gamma_j^l=\sigma(\beta_a^l)-\frac12\sigma(\beta_b^l)(1+\cos\left((1+j/K)\pi\right))$
其中, $\sigma$ 是relu函数,保证 $\gamma$ 的非负性以及 $\gamma_{j}^{h}\leq\gamma_{j+1}^{h}$ , $\gamma_{j}^{l}\geq\gamma_{j+1}^{l}$ .我们初始化 $\beta_{a}^h,\beta_{a}^l$ 0和2,设置 $\beta_{b}^h,\beta_{b}^l$ 2.之后, $\beta$ 可训练在对比训练中.由于余弦相似度强调了相关频率,因此促进了更稳定的频率分布.

在我的理解中,切比雪夫光谱过滤器的符号为正时,应该是高通过滤器.现在举前4项为例. $T_{1}(L)=x,T_{2}(L)=2x^2-1,T_{3}(x)=4x^3-3x$ ,这三个都是显著的高通过滤器.因此,我个人认为作者生成的两个多项式都是高通过滤器.
这样,高通视图和低通视图可得:
$\mathbf{Z}^h=\sum_{k=0}^Kw_k^hT_k(\tilde{\mathbf{L}})f_\theta^h(\mathbf{X}),\quad\mathbf{Z}^l=\sum_{k=0}^Kw_k^lT_k(\tilde{\mathbf{L}})f_\theta^l(\mathbf{X}).$
其中, $f_{\theta}$ 是MLP.

MLP编码器和交叉通道目标

我们定义交叉通道目标为:

\begin{aligned} L_{c p} & = \frac{- 1}{2 | V |} \sum_{v_{i} \in V} (\log \frac{s (z_{p}^{f}, z_{p}^{l})}{\sum_{p \neq q} s (z_{p}^{f}, z_{q}^{l})} + \log \frac{s (z_{p}^{f}, z_{p}^{h})}{\sum_{p \neq q} s (z_{p}^{f}, z_{q}^{h})}) . \end{aligned}

$\begin{aligned}\mathcal{L}_{cp}&=\frac{-1}{2|\mathcal{V}|}\sum_{v_i\in\mathcal{V}}\left(\log\frac{\mathrm{s}\left(z_p^f,z_p^l\right)}{\sum_{p\neq q}\mathrm{s}\left(z_p^f,z_q^l\right)}\right.+\log\frac{\mathrm{s}\left(z_p^f,z_p^h\right)}{\sum_{p\neq q}\mathrm{s}\left(z_p^f,z_q^h\right)}\Big).\end{aligned}$ \tag{4}

L_{c p} = \frac{- 1}{2∣ V ∣} v_{i} \in V \sum lo g \frac{s ( z _{p}^{f} , z _{p}^{l} )}{\sum _{p \neq = q} s ( z _{p}^{f} , z _{q}^{l} )} + lo g \frac{s ( z _{p}^{f} , z _{p}^{h} )}{\sum _{p \neq = q} s ( z _{p}^{f} , z _{q}^{h} )}) . (4)

\mathrm{s}(z_n^f,z_n^h) = \exp(\omega(z_n^f,z_n^h)/\tau)

,其中w是余弦相似度.

z_{p}^f

是通过mlp得到的.

z_{p}^h

是通过高通过滤器得到的.

z^l_{p}

是通过低通过滤器得到的.
但是,由于mlp匮乏的捕获图信息的能力,因此这个学习到的结果不是最优的

光谱:邻居正样本\

低通过滤器

由graph ecl,ugcn等可以得到:在异配图上,2阶邻居可以表现出同配性.因此,我们将公式4的左侧(mlp嵌入与低通嵌入的对比)改造为:
$\mathcal{L}_{fl}=-\frac1{2|\mathcal{V}|}\sum_{v_i\in\mathcal{V}}\frac1{|\mathcal{N}_i^{\prime}|}\sum_{v_p\in\mathcal{N}_i^{\prime}}\log\frac{\mathrm{s}\left(z_i^f,z_p^l\right)}{\sum_{v_q\in\mathcal{V}\setminus v_i}\mathrm{s}\left(z_i^f,z_q^l\right)}.$
其中, ${\mathcal{N}_i^{\prime}}$ 表示 $v_{i}$ 的本地邻居正样本.如图所示,由于节点p是节点i的邻居,因此,上式子实质上是聚合节点的2阶及以上的邻居.

高通过滤器

$\mathcal{L}_{fh}=-\frac1{2|\mathcal{V}|}\sum_{v_i\in\mathcal{V}}\frac1{|\mathcal{N}_i^{\prime\prime}|}\sum_{v_p\in\mathcal{N}_i^{\prime\prime}}\log\frac{\mathrm{s}\left(z_i^f,z_p^h\right)}{\sum_{v_q\in\mathcal{V}\setminus v_i}\mathrm{s}\left(z_i^f,z_q^h\right)}$ 其中, ${\mathcal{N}_i^{\prime\prime}}=kNN(v_i,k)$ .
knn是k近邻,只与节点特征相关.

最终损失:

$\mathcal{L}=\alpha\mathcal{L}_{fl}+(1-\alpha)\mathcal{L}_{fh},$

实验结果即消融:

实验结果

文章配图
貌似很不错,但是有几个23,24年的最新对比学习的正确率没有比较.并且,比较常见的chameleon和Squirrel也没有跑实验.
实验理论仍然有改进的空间

消融:

文章配图
上面是件简单的GCN-MLP,发现效果还行
下面则是提出的完整的模型,正确率提高了一点.

总结:

总的来说,一个很好的idea.但是,我个人感觉,整个论文还有提升的空间(其是在UGCL的基础上改造的对比学习模块)

S3GCL Spectral, Swift, Spatial Graph Contrastive Learning

方法

切比雪夫多项式:

MLP编码器和交叉通道目标

光谱:邻居正样本\

低通过滤器

高通过滤器

最终损失:

实验结果即消融:

实验结果

消融:

总结:

相关公式:

平滑性判断

定理: $\begin{aligned} Δ D (x) & = E [\sum_{(u, v) \in E} (x_{u} - x_{v})^{2} - \sum_{(u, v) \in E} (x_{u} - x_{v})^{2}] \\ = 2 E [(p_{i n t r a} - p_{i n t e r}) f (x)] . \end{aligned}$

互信息的最大化本质上就是优化kl散度: $I(z_j;z_i)\sim\frac1{D_{KL}(z_j||z_i)}$

S3GCL Spectral, Swift, Spatial Graph Contrastive Learning

方法

切比雪夫多项式:

MLP编码器和交叉通道目标

光谱:邻居正样本\

低通过滤器

高通过滤器

最终损失:

实验结果即消融:

实验结果

消融:

总结:

相关公式:

平滑性判断

互信息的最大化本质上就是优化kl散度: I ( z j ; z i ) ∼ 1 D K L ( z j ∣ ∣ z i ) I(z_j;z_i)\sim\frac1{D_{KL}(z_j||z_i)} I(zj​;zi​)∼DKL​(zj​∣∣zi​)1​

互信息的最大化本质上就是优化kl散度: $I(z_j;z_i)\sim\frac1{D_{KL}(z_j||z_i)}$