当前位置:   article > 正文

社交网络分析--python-igraph_igraph python

igraph python
  1. #coding:utf-8
  2. import scrapy
  3. import xlwt, lxml
  4. import re, json
  5. import matplotlib.pyplot as plt
  6. import numpy as np
  7. import pylab
  8. from scipy import linalg
  9. #文档:igraph.org/python/doc/
  10. #社交网络分析
  11. #
  12. from igraph import *
  13. '''
  14. 社交网络算法介绍
  15. 分析-权利的游戏-网络(Jupyter Notebook)
  16. 社交网络算法在金融反欺诈中的应用
  17. 社交网络算法应用场景:
  18. 在社交网络中社区圈子的识别(Community Detection)
  19. Facebook/Wechat是基于朋友之间的强关系网络,有助于朋友之间的联系与关系维系
  20. Twitter/Weibo/Douban是基于单向关注的弱关系社交网络,有助于消息的传播和塑造意见领袖
  21. Linkedin是面向工作的职业社交网络,帮助商务交流与求职招聘
  22. 基于好友关系为用户推荐商品或内容
  23. 社交网络中人物影响力的计算
  24. 信息在社交网络上的传播模型
  25. 虚假信息和机器人账号的识别
  26. 基于社交网络信息对股市、大选的预测
  27. 互联网金融行业中的反欺诈预测
  28. '''
  29. # g=Graph([(0,1),(0,2),(2,3),(3,4),(4,2),(2,5),(5,0),(6,3),(5,6)])
  30. # summary(g)
  31. # print(g)
  32. # print(g.degree())
  33. '''
  34. degree#二分图(Bipatite):有两类节点,同一类内部各节点之间没有关联关系,不同类节点之间互相关联
  35. Multigraph
  36. http://snap.stanford.edu/data/
  37. http://www-personal.umich.edu/~mejn/netdata
  38. 社交网络算法-分析指标
  39. 一个具体的网络可抽象为一个由节点(vertex或node)集合V和边(edge)集合E组成的图G=(V,E),节点数记为n=|V|,边数记为m=|E|
  40. 衡量指标:度,密度,团,度中心性,紧密中心性,介数中心性,聚集系数
  41. 团:各节点之间有相互联系
  42. 互联网特性:small world/power law/Community
  43. '''
  44. #度
  45. import csv
  46. edges=[]
  47. with open('C://Users/SunChao/Desktop/igraph/net.data','r') as f:
  48. for row in csv.reader(f.read().splitlines()):
  49. u,v=[i for i in row]
  50. edges.append((u,v))
  51. from igraph import Graph as IG
  52. g=IG.TupleList(edges,directed=False,vertex_name_attr='name',edge_attrs=None,weights=False)
  53. print(g)
  54. # for p in g.vs:
  55. # print(p['name'],p.degree())
  56. '''
  57. #紧密中心性:某个节点到达其他节点的难易程度,也就是其他所有节点距离的平均值的倒数
  58. paths=g.get_all_shortest_paths('7')
  59. #g.vs把整个图中的节点作为一个列表,对应有参数name
  60. names=g.vs['name']
  61. cc=0
  62. for p in paths:
  63. print([names[x] for x in p])
  64. cc+=len(p)-1
  65. print('closeness centrality=%s'%((len(paths)-1)/cc))
  66. ccvs=[]
  67. for p in zip(g.vs,g.closeness()):
  68. ccvs.append({'name':p[0]['name'],'cc':p[1]})
  69. pgvs=sorted(ccvs,key=lambda k:k['cc'],reverse=True)[:10]
  70. print(pgvs)
  71. '''
  72. '''
  73. #介数中心性
  74. #计算每对节点(i,j)之间的最短路径,当然需要得到具体路径
  75. #对各个节点判断该节点是否在最短路径上
  76. #最后将刚刚的判断进行累加得到从i到j的最短路径经过该点的数量
  77. #点介数
  78. sp=[]
  79. target=7
  80. for v in g.vs:
  81. # print(v,v['name'])
  82. paths=g.get_all_shortest_paths(v['name'])
  83. for p in paths:
  84. if(target in p and target !=p[0] and target !=p[-1]):
  85. print(target,p)
  86. sp.append(p)
  87. spbt=0
  88. tu=[]
  89. #去重,i到j和j到i为同一条路径
  90. for x in sp:
  91. if (set((x[0],x[-1]))) not in tu:
  92. tu.append(set((x[0],x[-1])))
  93. spbt+=1
  94. print(tu)
  95. print('betweenness=%s'%spbt)
  96. #--------------------------
  97. btvs=[]
  98. for p in zip(g.vs,g.betweenness()):
  99. btvs.append({'name':p[0]['name'],'bt':p[1]})
  100. pgvs=sorted(btvs,key=lambda k:k['bt'],reverse=True)
  101. print(pgvs)
  102. '''
  103. '''
  104. #PageRank算法
  105. # 思想:被大量高质量网页引用(链接)的网页也是高质量网页
  106. # A邻接矩阵*迭代时的节点权重B的转置
  107. pg=g.pagerank()
  108. pgvs=[]
  109. for p in zip(g.vs,pg):
  110. pgvs.append({'name':p[0]['name'],'pg':p[1]})
  111. pgvs1=sorted(pgvs,key=lambda k:k['pg'],reverse=True)
  112. print(pgvs1)
  113. '''
  114. '''
  115. #社团发现算法
  116. 什么是Community Structure
  117. 同一社区内的节点与节点之间的连接很紧密,而社区与社区之间的连接比较稀疏
  118. 设图G=G(V,E).所谓社团发现是指在图G中确定nc(>=1)个社区
  119. C={C1,C2,...,Cnc},
  120. 使得各社区的顶点集合构成V的一个覆盖
  121. 若任意两个社区的顶点集合的交集均为空,则C称为非重叠社区(disjoint communities);否则称为重叠社区(overlapping communities)
  122. GN算法
  123. 边介数:网络中经过每条边的最短路径的数目。
  124. GN:计算网络中所有边的介数
  125. 找到介数最高的边并将它从网络中删除
  126. 重复,直到每个节点就是一个社团为止
  127. '''
  128. # btes=[]
  129. # for p in zip(g.es,g.edge_betweenness()):
  130. # e=p[0].tuple
  131. # print((e[0]))
  132. # btes.append({'edge':(e[0],e[1]),'ebt':p[1]})
  133. # es=sorted(btes,key=lambda k:k['ebt'],reverse=True)
  134. # print(es)
  135. commnities=g.community_edge_betweenness(directed=False,weights=None)
  136. print(commnities)
  137. print(g.vs['name'])
  138. #社区评价指标-模块度Modularity
  139. #网络如果有社区结构的话,网络中两个节点间有边的概率要高于随机图中两个节点间有边的概率
  140. #对于随机图,模块度Q=0,对于一般图 模块度在0.3-0.7之间
  141. # 社区评价指标-Conductance阻断率
  142. # 其值越小表明社区属性越明显
  143. # outgoing edges/edges within
  144. #Louvain算法 通过计算模块度增量,将高的并到初始社区中
  145. # o(n^3)->o(n^2logn)
  146. #LPA算法 --o(n)
  147. #优点:不需要预先知识,不用预先给定社区的数量,可以控制迭代的次数来划分节点类别
  148. # 可扩展性强,时间复杂度接近线性,适合处理大规模复杂网络
  149. # 思想:
  150. # 1.初始化每个节点,给其唯一标签
  151. # 2.根据邻居节点最常见的标签更新每个节点的标签
  152. # 3.最终收敛后标签一致的节点属于一个社区
  153. # SLPA算法

# 安装python-igraph出错问题:
#     Failed building wheel for python-igraph
#     原因是 pip install -U python-igraph官方未找到对应安装包
#     建议从第三方下载对应版本的.whl本地安装
#     可通过以下链接:http://www.lfd.uci.edu/~gohlke/pythonlibs/
#  下载后放到指定路径下(如,本人使用anaconda 创建的python35虚拟环境,打开Anaconda prompt后activate激活 显示(python35) C:\Windows\system32 则应将文件放至该目录下)
# 另外,亦可通过上述方式下载并安装pycairo库
 #conda install -c marufr python-igraph=0.7.1.post6

 

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/230179
推荐阅读
相关标签
  

闽ICP备14008679号