爱喝兽奶帝天荒

这个屌丝很懒，什么也没留下！

热门标签

13-传统的图生成模型_图演化模型

作者：爱喝兽奶帝天荒 | 2024-08-05 12:01:41

踩

图演化模型

图机器学习（传统的图生成模型）

1. 前言

之前都是图的模型都是已知的：

请添加图片描述

这节开始研究如何用模型生成这样的图：

请添加图片描述

图生成模型问题的研究动机，以前都是假设图是已知的；但我们也会想通过graph generative model人工生成与真实图类似的synthetic graph，这可以让我们：

了解图的形成过程。
预测图的演化。
生成新的图实例。
异常检测：检测一个图是否异常。

2. Properties of Real-world Graphs

1. 常见衡量真实图数据的属性有：

度分布‎
‎聚类系数‎
‎连通分量‎
‎路径长度‎

2. 度分布（Degree distribution）

随机选择的节点拥有度为k的概率为： $p (k)$
有 $N_k$ 个节点拥有度k则有 $P(k)=\frac{N_k}{N}$

请添加图片描述

3. Clustering coefficient

聚类系数，用来衡量节点 $i$ 的邻居的相互连接程度，记节点 $i$ 的度为 $k_i$ ，则聚集系数为： $C_i=\frac{2e_i}{k_i(K_i-1)},C_i\in[0,1]$

请添加图片描述

$e_i$ 是邻居之间的边，不含节点 $i$ 与邻居的边。整个图的聚集系数是求所有节点的聚集系数后进行平均： $C=\frac{1}{N}\sum_i^NC_i$

4. Connectivity

就是最大连通分量，找出下图的最大连通分量：

请添加图片描述

步骤：

从随机一个节点开始做BFS
标记访问过的节点
如果所有节点均能访问，则该图是连通图，否则重新找一个未访问的节点从步骤1开始，直到所有图中节点都被访问

5. Path Length

图的直径：图中任意节点对的最大的最短路径长度
对于连通无向图或强连通有向图而言，图的平均路径长度为： $\overline h=\frac{1}{2E_{max}}\sum_{i,j\ne i}h_{ij}$

$h_{ij}$ 是两个节点之间的距离；

$E_{max}=\frac{n(n-1)}{2}$ 是图中可包含的最大边数量

通常在计算过程中，我们会忽略掉路径长度为无穷的值，从而计算出正确的平均路径长度。

6. 举例：MSN Graph

MSN Messenger: 只包含 1 ‎活动月份‎，基本信息如下：
‎2.45亿用户登录‎、1.8亿用户参与对话‎、‎ 超过300亿次对话‎、超过2550亿次交换消息‎。

原始度分布，平均度为14.4：

请添加图片描述

横纵坐标log后的度分布

请添加图片描述

聚集系数：0.114

请添加图片描述

连通分量，最大那个基本涵盖99%的用户。

请添加图片描述

路径长度，平均路径长度为6.6,有90%的节点可以在8跳内相互访问。

请添加图片描述

以上信息没有对比也无法知道这些指标是否偏高或者正常，下面引入三个生成随机图的方法，将生成图与MSN网络进行对比

3. 生成随机图一：Erdös-Renyi (ER【1】)

ER方法主要有两种形式：

$G_{np}$ ：表示一个有n个节点的无向图，其中每个节点对（u，v）是否有边，是按i.i.d（独立同分布）的概率p进行设置的。

$G_{nm}$ ：表示一个有n个节点的无向图，其中随机选择m个节点对形成边。

我们主要用第一种形式，它有两个变量来控制生成图的形式：

请添加图片描述

【1】在图论的数学理论部分中，ER模型（Erdős–Rényi model）可指代两个密切相关的随机图生成模型中的任意一个。这两个模型的名称来自于数学家Paul Erdős（保尔•厄多斯）和Alfréd Rényi（阿尔弗烈德•瑞利），他们在1959年首次提出了其中一个模型，而另一个模型则是Edgar Gilbert（埃德加•吉尔伯特）同时并且独立于Erdős和Rényi提出的。在Erdős和Rényi的模型中，节点集一定、连边数也一定的所有图是等可能的；在Gilbert的模型中，每个连边存在与否有着固定的概率，与其他连边无关。在概率方法中，这两种模型可用来证明满足各种性质的图的存在，也可为几乎所有图的性质提供严格的定义。

1. Degree distribution of $G_{np}$

其实度分布是一个二项分布：

请添加图片描述

上面的n−1表示是除了当前节点外，从n−1个节点中选出k个节点，让这k个节点与当前节点以概率p的方式相连。
该二项分布的均值和方差为：
$\overline k=p(n-1)\\ \sigma=p(1-p)(n-1)$
看图基本就是高斯分布：

请添加图片描述

2. Clustering Coefficient of $G_{np}$

由于图中的边是按i.i.d.（独立同分布）的概率p进行设置的。因此，对于节点i度为 $k_i$ 而言，其邻居之间出现边的期望可以表示为：

$E[e_i]=p\frac{k_i(K_i-1)}{2}$

从而根据原始的聚集系数公式得到期望聚集系数为：
$E[e_i]=\frac{p\cdot k_i(K_i-1)}{k_i(K_i-1)}=p=\frac{\overline k}{n-1}\approx \frac{\overline k}{n}$
上式中最后的等号有均值公式转化得来。

随机图的聚集系数比较小，如果用固定的度k或者 $p=\frac{\overline k}{n-1}$ 来生成图，随着图节点数n越大，聚集系数越小。

3. $G_{np}$ 的连通分量

保证图中节点数量不变，将生成边的概率从0变到1，图结构则有下面的变化：

请添加图片描述

当p = 0 ，表示不会有边生成，空图
当p = 1，表示每个节点对100%生成边，完全图

$\overline k=p(n-1)$ ,因此当 $p=\frac{1}{n-1}$ 时， $\overline k=1$ ，意味每个节点都会有一条边相连，意味着开始出现较大连通分量，如果边小于节点数量，也就是 $\overline k<1$ 意味着有节点是没有边相连的。基于这个理论，我们可以得到giant component:出现的临界点就是节点平均度为1，写成数学表达就是：
$p=\frac{\overline k}{n-1}or\quad \overline k=\frac{2E}{n}$
当节点平均度小于1时：k = 1 − ε ，所有连通分量大小上限是：Ω ( log ⁡ n )