赞
踩
一、文章摘要
影响力最大化问题是社交网络分析领域的热点研究问题,而对影响力进行全面科学的度量又是该问题的核心。本文针对度量影响力的全局性指标和局部性指标存在的不足,根据三度分隔原理,提出用节点在局部域内的影响力近似其在全局范围内的影响力并据此进行种子选择的方法。该方法充分利用网络中存在的自环和多边现象,结合网络拓扑结构构建生成图。依据生成图为每个节点划分以其为中心的局部域,用节点在该局部域内的影响力近似其在全局范围内的影响力,并据此去选择候选种子节点。然后,计算候选种子加入种子集合后的重叠比因子,根据该因子决定是否将此候选种子节点选作种子,以此来控制种子集合的影响力重叠程度。在真实数据集上的实验结果验证了本文方法的正确性和有效性。
二、知识介绍
1.什么是影响力最大化算法
影响力最大化问题旨在从社交网络中寻找K个最具影响力的节点,使得以这些用户作为种子开始传播信息时信息的最终传播范围最大。影响力最大化问题是从网络中找到一个大小为的节点集合,使得以这个节点作为种子开始影响力传播时影响力的最终传播范围最大(即激活的节点数最多)。影响力最大化问题可由式(1)表示。在式(1)中,表示节点集合,表示影响力的传播范围。
(1)
2.什么是影响力度量
对用户的影响力进行科学准确的度量是影响力最大化问题的核心之一。网络拓扑结构是影响力度量的重要依据。
3.影响力度量方法的分类
网络拓扑结构是影响力度量的重要依据。与拓扑结构相关的影响力度量指标可以分为全局性指标和局部性指标。介数中心性、接近中心性[、离心中心性、流介数中心性、Katz中心性、连通介数中心性等都属于全局性指标。全局性指标需要依靠网络完整拓扑结构,在整个网络范围内计算节点影响力,因此时间复杂度会很高。
度中心性、半局部中心性、特征向量中心性等都属于局部性指标。这类指标仅依据局部范围的拓扑信息计算节点的影响力。与全局性指标相比,这些局部性指标时间复杂度相对较低。
4.三度分隔理论
根据Chrisakis等人的研究成果,影响力传播遵循三度分隔原理,即节点的影响力在相距不超过三跳的邻居节点间传播时随着距离的增大而不断衰减,当传播距离超过三跳时则几近消失。
5.影响力传播模型
线性阈值模型(Linear Threshold Model,LT模型)可以用来模拟影响力的传播过程。在LT模型中,节点只能处于激活状态或者非激活状态。激活状态的节点通过有向边试图激活处于非激活状态的邻居节点。而对于非激活状态的节点,当所有激活状态的邻居节点对其影响力之和大于该节点的激活阈值时,该非激活节点就转为激活状态。当网络中不会再有节点被激活时即由非激活状态转为激活状态时,影响力的传播过程收敛。
三、本文创新点
本文针对度量影响力的全局性指标和局部性指标存在的不足,结合三度分隔原理,提出用节点在局部范围内的影响力近似其在全局范围内影响力的方法。该方法首先根据网络拓扑结构构造生成图,依据生成图划分每个节点对应的局部域,根据节点在对应局部域内的影响力筛选候 选种子节点;然后计算每个节点与种子集合的重叠比因子,并据此决定候选种子节点是否能成为种子节点。在真实数据集上的实验结果验证了本文方法的正确性和有效性。
四、本文创新的概念和公式
1.自环
自环指的是一种特殊的环结构,这种环状结构只包含一个节点。社交网络中用户可能发起只有自己参与的社交活动,从而在对应的社交网络图中形成只有该节点参与的自环。自环多的节点活跃度较高,在信息传播过程中会主动地影响其他节点。本文引入了自环因子度量自环对节点能力的影响。自环因子根据式(2)计算。在该式中,表示节点vi的自环因子,每个自环的权重。若是无权网络,默认为1,此时节点自环因子等于节点的自环个数。
(2)
2.多环
多边指的是社交网络图中两个节点间有多条边存在。在社交网络中,两个节点间的一次互动会在社交网络图中对应的节点间产生一条边。当两个节点间有多次互动时,它们之间就会有多条边。然而,随着边数的增加,图的存储和遍历成本也会增加。在不影响图的存储和计算成本的前提下,本文引入了多边因子,用以度量节点间存在的多边现象对信息传播过程的影响。多边因子随着两个节点间边的增多而增大。多边因子可根据式(3)计算。在该式中,表示节点和的多边因子,表示到一条边的权重。在无权网络上,则默认为1,此时节点多边因子等于两节点之间的边数。
= (3)
3.边影响权重
边影响权重. 给定一条边(),对的影响力即为该边的边影响权重。
边影响权重可由式(4)计算。在该式中,表示和之间的多边因子,表示节点的自环因子,是由出边直接指向的节点构成的集合。
(4)
4.最短距离
最短距离. 节点间最短路径的长度即为节点间的最短距离。
5.局部邻居
局部邻居. 给定节点,若是的可达节点,且到的距离不大于,则称是的局部邻居。
6.局部域
局部域. 给定节点及其局部邻居构成的节点集合、以及这些节点间的边构成的边集合共同组成此节点的局部域,记为。
以节点为中心的局部域记为由式(5)表示。在本式中,其中表示节点的局部邻居集,表示有向边的边影响权重。
(5)
7.局部影响力
局部域影响力. 对于给定节点,其局部域影响力描述由以此节点为中心的局部域拓扑结构所决定的该节点传播信息的能力,记为
。
(),根据式(6)计算。在该式中,是节点到节点的最短距离,指的是节点到节点的最短路径中最后一条边上的边影响权重。
(6)
8.判定给定节点间是否存在影响力重叠
节点之间可能存在影响力重叠现象,导致多个节点的共同影响力小于各节点影响力之和。为了保证影响力的传播范围最大,在选择种子节点时应考虑节点之间可能存在的影响力重叠现象。权衡影响力重叠检测成本和消除影响力重叠后的收益,本文允许影响力重叠,但是应避免影响力过度重叠,并利用式(7)判定给定节点间是否存在影响力重叠。在该式中,其中表示过度重叠判定阈值,和分别表示和的出边直接连接的节点构成的集合。在式(7)的基础上,本文定义了重叠比因子,判定一个集合中节点间影响力重叠的程度。
(7)
9.重叠比因子
重叠比因子. 描述给定集合中影响力过度重叠的节点在集合中所占的比例,记为。
给定集合,该集合的重叠比因子由式(8)计算。
= (8)
五、伪代码
本文算法首先根据值构建候选种子节点列表,并将该列表中第一个节点作为种子加入种子集合。然后,依次从候选种子节点列表中选择一个节点,并计算该节点加入种子集合后该种子集合的重叠比因子。若该重叠比因子小于预定义的重叠比阈值,则将此节点加入种子节点集合;否则,不能将此节点加入种子集合。重复上述过程,直至选出足够数量的种子节点。
算法对列表中的每个候选节点按顺序挑选,最坏情况下需要遍历所有候选节点。对于每个遍历到的候选节点,都要根据式(8)检测是否与某种子节点存在影响力过度重叠。给定种子数量,判定某个候选节点是否与某个种子节点存在过度重叠的时间复杂度为,其中为节点出度的平均值。基于以上分析,从节点集合中选出个种子的时间复杂度在最坏的情况下为,也可表示为。
六、实验
1.对比条件
本次实验选取了5种对比算法,通过在6个不同规模的真实数据集上和这些对比算法比较影响力传播范围、传播时间等来验证本文算法的正确性和有效性。比较的方面包括影响力传播范围、算法运行时间和占用内存空间大小。
2.数据集
3.对比算法
MaxDegree算法、PageRank算法、ICGW算法、Closeness算法和IDD1算法。
4.不同算法传播范围比较
5.时间比较
6.内存比较
七、总结
针对影响力的全局度量性指标和局部度量指标存在的不足,本文提出用节点在局部域内的影响力近似其在全局范围内的影响力,并据此选择种子节点的方法。该方法首先构建以节点为中心的局部域影响力模型,并依据模型筛选候选种子节点集合;然后利用重叠比因子刻画候选种子节点与种子节点集合间的重叠程度,根据该因子决定是否将此候选种子节点选作种子。本文方法优点在于识别高影响力节点群体的能力更强,且复杂度较低;缺点主要表现在不适用于动态社交网络。在下一步的工作中,将重点研究如何在动态社交网络中应用本文方法。
文章链接:基于局部域的影响力最大化算法
文章引用:SHEN Ji-quan, LIN Shuai, LI Zhi-ying. An Influence Maximization Algorithm Based on the Local Domain[J]. Computer Engineering, doi: 10.19678/j.issn.1000-3428.0062160.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。