当前位置:   article > 正文

社交网络与社会计算课程内容梳理总结_北京科技大学 社会计算 社交么提

北京科技大学 社会计算 社交么提

1 引言

社会计算是指社会科学和计算技术交叉融合而成的一个研究领域,研究如何利用计算系统帮助人们进行沟通与协作,研究如何利用计算技术分析社会运行的规律与发展趋势,即以社交网络和社会媒体为研究对象,从中发现社会关系、社会行为的规律。

社会计算的研究内容包括:

  1. 社交网络服务,包括:社会关系强度、信息的绝对价值和相对价值、新鲜事排序算法、隐私性以及社会化搜索;
  2. 内容计算,包括:舆情分析、人际关系挖掘、微博应用;
  3. 群体智慧,比如百度百科和维基百科。

社会计算的研究理论工具:

  1. 从数学和社会心理学等其他学科借鉴来的理论,比如图论、平衡论、社会比较理论、六度分割理论、150定律;
  2. 本源的社会网络理论,比如异质性理论、结构角色理论;
  3. 网络时代大数据的研究方法

社会媒体是指互联网上基于用户关系的内容生产与交换平台,其特点有:1)多对多;2)丰富的用户交互特性。

社会媒体数据通常用图或者矩阵的形式进行表示。现实世界中的大规模网络往往具有一些共同的性质:无标度分布、小世界效应、强社区结构。

社会媒体挖掘的意义:

  1. 社会媒体挖掘研究将是推动社会学与信息科学交叉发展的着力点;
  2. 社会媒体数据研究已经成为提高国家信息产业科学化水平和舆情态势感知能力的支撑点;
  3. 社会媒体挖掘是引领新型互联网经济发展的制高点。

社会媒体挖掘的挑战:

  1. 可扩展性;
  2. 混杂性;
  3. 演化;
  4. 集体智慧

本课程关注的社会计算任务:

  1. 社区发现与演化分析,包括1)如何发现社区?2)社区结构时如何演化的?3)怎样评价发现的社区;
  2. 信息传播与影响建模,包括1)如何建模社会媒体上的信息扩散?如何挖掘社会媒体上的关键节点?3)用户间是如何相互影响的?4)如何求解影响最大化问题?5)如何对网络传播进行追踪溯源?6)如何预测信息热度?
  3. 兴趣发现与推荐系统,包括1)经典的推荐算法有哪些?2)基于社会媒体的推荐系统如何构建?3)如何评价推荐系统的性能?
  4. 话题发现与演化追踪,包括1)话题发现的模型和算法有哪些?2)话题演化的模型和算法有哪些?3)如何应对大规模、动态、多源数据的挑战?
  5. 链接预测与网络推断,包括1)链接预测的基本方法有哪些?2)异质社会媒体上连接预测如何实现?3)网络推断的效果如何评价?
  6. 行为分析与建模预测,包括:如何刻画用户的采纳和忠诚程度?2)如何建模用户个体的使用行为?3)如何建模用户群体的互动行为?
  7. 社会媒体的情感分析、任务分析、安全、可视化,等等。

2 复杂网络的图要素

复杂网络是指那些结构复杂、无规则、随时间动态变化的网络。

哥尼斯堡七桥问题:只有当图中度为奇数的顶点不超过两个,这样的路径才存在。

图的基础知识:

  1. 节点与边;
  2. 有向边与有向图;
  3. 邻居;
  4. 度和度的分布

图的表示:

  1. 邻接矩阵;
  2. 邻接表;
  3. 边列表

图的类型:

  1. 零图和空图;
  2. 有向图、无向图、混合图;
  3. 简单图与多重图;
  4. 带权图;
  5. 标号图

通路是指依次遍历相邻边产生的边序列,分为开通路闭通路。通路可以用边序列或者节点序列表示。通路的长度是指经过的边的数量。边不重复的通路称为简单通路,闭合的简单通路称为环路。节点和边都不重复的通路称为路径,闭合的路径称为回路欧拉环路是指图中所有边均只被遍历一次的环路,哈密尔顿回路是指遍历了图中所有节点的回路。如下图所示:

图的连通性:如果节点 v i v_i vi和节点 v j v_j vj之间有路径连接,那么称节点 v i v_i vi可连接到节点 v j v_j vj,即可达。无向图的可达性对称,有向图的可达性不一定对称。任意节点相互可达的有向图称为强联通有向图,不考虑相互约束,称为弱连通有向图。同理可以基于子图和连通性定义连通分支强连通分支弱连通分支

最短路径可以使用Dijstra算法和Prim算法进行求解。

图的直径是指任意两个节点之间距离中的最大值。图的平均距离是指图中所有节点对的距离的平均值。

特殊图包括:树、森林、生成树、完全图、平面图、二分图、正则图

图算法:最大流算法、Prim算法、Dijstra算法。

3 复杂网络度量

度中心性认为具有更多链接关系的节点具有更高的中心性,我们可以使用最大可能度数(n-1)、最大度数、度数和对度中心性进行归一化。

特征向量中心性是度中心性的一种扩展,其试图通过结合无向图中的邻居节点的重要性来修正度中心性,计算如下: c e ( v i ) = 1 λ ∑ j = 1 n A j , i c e ( v j ) c_{e}\left(v_{i}\right)=\frac{1}{\lambda} \sum_{j=1}^{n} A_{j, i} c_{e}\left(v_{j}\right) ce(vi)=λ1j=1nAj,ice(vj)

Katz中心性修正了特征向量中心性的一个缺点:没有入边的特征向量中心性为0,计算如下: C K a t z ( v i ) = α ∑ j = 1 n A j , i C K a t z ( v j ) + β C_{\mathrm{Katz}}\left(v_{i}\right)=\alpha \sum_{j=1}^{\mathrm{n}} A_{j, i} C_{\mathrm{Katz}}\left(v_{j}\right)+\beta CKatz(vi)=αj=1nAj,iCKatz(vj)+β

PageRank中心性认为并不是中心性用户所关注的每一个人都是中心性用户,解决方案是让中心性除以节点的出度,这样每个邻居节点获取源节点中心性的一部分。 C p ( v i ) = α ∑ j = 1 n A j , i C p ( v j ) d j o u t + β C_{p}\left(v_{i}\right)=\alpha \sum_{j=1}^{n} A_{j, i} \frac{C_{p}\left(v_{j}\right)}{d_{j}^{\mathrm{out}}}+\beta Cp(vi)=αj=1nAj,idjoutCp(vj)+β

介数中心性度量方法是考虑节点在连接其他节点时所表现出来的重要性,计算其他节点间最短路径中有多少条要通过节点??,这个比重是多少,公式如下: C b ( v i ) = ∑ s ≠ t ≠ v i σ s t ( v i ) σ s t C_{b}\left(v_{i}\right)=\sum_{s \neq t \neq v_{i}} \frac{\sigma_{s t}\left(v_{i}\right)}{\sigma_{s t}} Cb(vi)=s̸=t̸=viσstσst(vi),归一化的介数中心性: C b norm ⁡ ( v i ) = C b ( v i ) 2 ( n − 1 2 ) C_{b}^{\operatorname{norm}}\left(v_{i}\right)=\frac{C_{b}\left(v_{i}\right)}{2 \left(

n12
\right)} Cbnorm(vi)=2(n12)Cb(vi)

紧密度中心性,在一个连通图中,节点越接近中心,它越能快速地到达其他节点,这些节点与其他节点之间平均路径长度应该较小,因此定义紧密度中心性, C c ( v i ) = 1 l ‾ v i C_{c}\left(v_{i}\right)=\frac{1}{\overline{l}_{v_{i}}} Cc(vi)=lvi1,其中 l ‾ v i = 1 n − 1 ∑ v j ≠ v i l i , j \overline{l}_{v_{i}}=\frac{1}{n-1} \sum_{v_{j} \neq v_{i}} l_{i, j} lvi=n11vj̸=vili,j

群体中心性,上述所有的中心性度量方法都是针对单个节点而定义的,这里讨论如何将度中心性、紧密度中心性、介数中心性的定义扩展到一组节点组成的集合上。

传递性,在社交网络中,传递性就是我朋友的朋友就是我的朋友,传递性可以通过聚类系数或局部聚类系数进行度量。 C = (  Number of Triangles  ) × 3  Number of Connected Triples of Nodes  C=\frac{(\text { Number of Triangles }) \times 3}{\text { Number of Connected Triples of Nodes }} C= Number of Connected Triples of Nodes ( Number of Triangles )×3

相互性:相互性是简化的传递性,它只考虑有向图中长度为2的闭合循环。

相似性分为结构相似性和规则相似性,结构相似性的度量方法有Jaccard 相似度: σ J a c c a r d ( v i , v j ) = ∣ N ( v i ) ∩ N ( v j ) ∣ ∣ N ( v i ) ∪ N ( v j ) ∣ \sigma_{J a c c a r d}\left(v_{i}, v_{j}\right)=\frac{\left|N\left(v_{i}\right) \cap N\left(v_{j}\right)\right|}{\left|N\left(v_{i}\right) \cup N\left(v_{j}\right)\right|} σJaccard(vi,vj)=N(vi)N(vj)N(vi)N(vj)和Cosine相似度 σ  cosine  ( v i , v j ) = ∣ N ( v i ) ∩ N ( v j ) ∣ ∣ N ( v i ) ∣ ∣ N ( v j ) ∣ \sigma_{\text { cosine }}\left(v_{i}, v_{j}\right)=\frac{\left|N\left(v_{i}\right) \cap N\left(v_{j}\right)\right|}{\sqrt{\left|N\left(v_{i}\right)\right|\left|N\left(v_{j}\right)\right|}} σ cosine (vi,vj)=N(vi)N(vj) N(vi)N(vj)。在规则相似性里,我们并不注重个体间共有的邻居节点,而是关注邻居节点自身的相似程度,通过比较邻居节点的相似度来确定节点间的相似度,而不是通过共有的邻居节点来确定。

4 复杂网络模型

真实网络的常见属性包括:1)度分布——幂律分布2)聚类系数——普遍较高3)平均路径长度——普遍较短。

社会媒体中节点度通常是指一个人的朋友数量(无向图中的度)或粉丝数量(关注网络中的入度),这个度分布通常满足幂律分布: ln ⁡ p k = − b ln ⁡ k + ln ⁡ a \ln p_{k}=-b \ln k+\ln a lnpk=blnk+lna p k p_k pk表示节点度为?的节点在整个网络节点中所占的比例。

符合幂律分布的网络通常叫做无标度网络(Scale-Free networks)。

图论中,聚类系数是表示节点聚集程度的系数。

全局集聚系数基于节点三元组,是所有三元组(包括开三元组和闭三元组)中闭三元组所占比例,图中一个节点的局部集聚系数表示它的相邻节点形成一个团(完全图)的紧密程度, C i = { k i d i × ( d i − 1 ) / 2 d i > 1 0 d i = 0  or  1 C_{i}=\left\{

\begin{array}{cc}{\frac{k_{i}}{d_{i} \times\left(d_{i}-1\right) / 2}} & {d_{i}>1} \\ {0} & {d_{i}=0 \text { or } 1}\end{array}
\right. Ci={di×(di1)/2ki0di>1di=0 or 1,其中 k i k_i ki表示邻居间的边数, d i d_i di是邻居数。整个网络的平均聚类系数定义如下: C = ∑ i ∈ V C i ∣ V ∣ C=\frac{\sum_{i \in V} C_{i}}{|V|} C=ViVCi

在真实网络中,网络中任意两个用户都可以经过一条比较短的朋友关系链进行关联,评论路径长度定义为: l G = 1 n ⋅ ( n − 1 ) ⋅ ∑ i , j d ( v i , v j ) l_{G}=\frac{1}{n \cdot(n-1)} \cdot \sum_{i, j} d\left(v_{i}, v_{j}\right) lG=n(n1)1i,jd(vi,vj)

随机图模型,节点之间的边是随机生成的,我们讨讨论两种随机图模型, G ( n , p ) G(n, p) G(n,p),节点之间存在连边的概率; G ( n , m ) G(n, m) G(n,m),m是生成边的数量。

小世界网络模型是Watts和Strogatz在1998年提出的基于人类社会网络的网络生成模型,它通过调节一个重链参数?可以从正则网络向随机网络过渡,该模型称为WS小世界模型。正则网络是指任何一个节点的近邻数目都相同的网络。

优先链接模型由Albert-László Barabási and Réka Albert在1999年提出,当新的节点加入到网络时,它们更倾向于连接那些与网络中较多节点相连的节点。

5 网络表示学习

6 主题模型

贝叶斯概率是贝叶斯网络运行的理论基础,其原理和应用相对比较简单。

先验概率是指根据历史的资料或主观判断所确定的各种事件发生的概率,该概率没有经过实验证实,属于检验前的概率。

后验概率一般是指通过贝叶斯公式,结合调查等方式获取了新的附加信息,对先验概率修正后得到的更符合实际的概率。

似然条件概率:当条件确定时,某事件发生的概率就是该事件的条件概率。

贝叶斯公式 P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ i = 1 n P ( B i ) P ( A ∣ B i ) P\left(B_{i} | A\right)=\frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{i=1}^{n} P\left(B_{i}\right) P\left(A | B_{i}\right)} P(BiA)=i=1nP(Bi)P(ABi)P(Bi)P(ABi)

有向概率图模型:贝叶斯网络(BN)、隐马尔科夫模型(HMM);
无向概率图模型:马尔科夫随机场(MRF)、条件随机场(CRF);
混合概率图模型:链图(CG)。

贝叶斯网络:联合分布 P ( X 1 , … , X n ) = ∏ i P ( X i ∣ Pa ⁡ ( X i ) ) P\left(X_{1}, \ldots, X_{n}\right)=\prod_{i} P\left(X_{i} | \operatorname{Pa}\left(X_{i}\right)\right) P(X1,,Xn)=iP(XiPa(Xi))

极大似然估计的步骤

  1. 独立同分布(IID)的数据 X = ( X 1 , X 2 , … , X n ) X=\left(X_{1}, X_{2}, \ldots, X_{n}\right) X=(X1,X2,,Xn)
  2. 概率密度函数为 f ( x ∣ θ ) , 即 ∣ X i ∼ f ( x ∣ θ ) f(x | \theta), 即\left|X_{i} \sim f(x | \theta)\right. f(xθ),Xif(xθ)
  3. 定义似然函数: L ( θ ∣ X ) = f ( X ∣ θ ) = ∏ i = 1 n f ( X i ∣ θ ) L(\theta | \mathrm{X})=f(\mathrm{X} | \theta)=\prod_{i=1}^{n} f\left(X_{i} | \theta\right) L(θX)=f(Xθ)=i=1nf(Xiθ)
  4. 对数似然函数: l ( θ ∣ X ) = log ⁡ L ( θ ∣ X ) l(\theta | \mathrm{X})=\log L(\theta | \mathrm{X}) l(θX)=logL(θX)
  5. θ \theta θ的极大似然估计为: θ ^ = arg ⁡ max ⁡ θ L ( θ ∣ X ) \hat{\theta}=\arg \max _{\theta} L(\theta | \mathrm{X}) θ^=argmaxθL(θX) = arg ⁡ max ⁡ θ l ( θ ∣ X ) =\arg \max _{\theta} l(\theta | \mathrm{X}) =argmaxθl(θX).

极大似然估计存在以下问题:对于许多具体问题不能构造似然函数解析表达式?(?|?);似然函数表达式过于复杂而导致难以求解最值。正是在这种情况下,人们提出了基于数值迭代的EM算法。

EM算法主要用于非完全数据参数估计,它通过假设隐变量的存在,可以大大简化似然函数方程,以迭代的方式寻找使似然函数?(?|?)达到最大的参数。

Markov Chain Mento Carlo采样方法(简称MCMC方法)主要用于统计推理中的模拟抽样,尤其在贝叶斯推理中有着非常广泛的应用。

直观上,主题就是一个概念、一个方面,它表现为一系列相关的词语,数学上,主题就是词汇表上词语的条件概率分布。在自然语言处理中,主题(topic)可以看成是词项空间(或词典、词汇表)上的概率分布。

主题模型起源于隐性语义索引(Latent Semantic Indexing, LSI),隐性语义索引并不是概率模型,因此也算不上一个主题模型,但是其基本思想为主题模型的发展奠定了基础。

在LSI的基础上,Hofmann提出了概率隐性语义索引(probabilistic Latent Semantic Indexing, pLSI),该模型被看成是一个真正意义上的主题模型。

Blei等人提出的LDA(Latent Dirichlet Allocation)又在pLSI的基础上进行了扩展得到一个更为完全的概率生成模型。

主题模型的主要内容包括:

  1. 主题模型的输入
  2. 主题模型的基本假设
  3. 主题模型的表示
  4. 参数估计过程
  5. 新样本的推断

主题模型的主要输入是文档集合,由于交换性的假设,文档集合等价于词项-文档矩阵。主题模型的另一个输入是主题个数?,通常,?的大小需要在模型训练前指定,而且存在一定的经验性。

主题模型中的一个重要假设是词袋(bag of words)假设,即一篇文档内的词项可以交换次序而不影响模型的训练结果。

主题模型的表示有两种,分别是使用图模型和生成过程。以LDA模型为例,下图是使用图模型的方法对LDA模型进行表示:

图中方框表示其中的内容进行重复,右下角是重复的次数,灰色节点表示观测值,空心节点表示隐含随机变量或者参数,箭头代表依赖关系,?是?的超参数,?是?×?的参数集合,每行代表某个主题中的词项概率分布,?是主题个数,?是词项个数;?表示每篇文档的主题概率分布,共?个,?为文档个数.?为单词,?为?的主题标号。

我们也可以通过生成过程来对主题模型进行描述,LDA模型是按照如下图所示的方式生成一篇文档,重复?次则生成整个语料:

主题模型中,最重要的两组参数分别是各文档的主题概率分布和各主题下的词项概率分布,参数估计可以看成是生成过程的逆过程:即在已知文档集(即生成的结果)的情况下,通过参数估计,得到参数值。针对参数估计,我们需要选择最优化的目标函数,在主题模型中通常是整个语料的概率似然。

以LDA模型为例,根据其概率模型很容易得到语料概率似然值 p ( D ∣ α , β ) p(D|\alpha, \beta) p(Dα,β)为:
∏ d = 1 M ∫ p ( θ d ∣ α ) ( ∏ n = 1 N d ∑ z d n p ( z d n ∣ θ d ) p ( w d n ∣ z d n , β ) ) d θ d \prod_{d=1}^{M} \int p\left(\theta_{d} | \alpha\right)\left(\prod_{n=1}^{N_{d}}\sum_{z_{d n}} p\left(z_{d n} | \theta_{d}\right) p\left(w_{d n} | z_{d n}, \beta\right) \right) \mathrm{d} \theta_{d} d=1Mp(θdα)(n=1Ndzdnp(zdnθd)p(wdnzdn,β))dθd
其中,D代表整个语料,也就是所有文档的集合, N d N_d Nd表示第d篇文档的长度, θ d \theta _d θd表示第d篇文档的主题概率分布, w d n w_{dn} wdn表示第d篇文档的第n个单词, z d n z_{dn} zdn表示 w d n w_{dn} wdn的主题,该函数以 α \alpha α β \beta β为参数,通过对目标函数进行最大化来估计 α \alpha α β \beta β的值。

主题模型训练完成后,我们便可以使用训练好的主题模型对新的样本进行推断,通过主题模型将以词项空间表达的文档变换到新的主题空间,得到一个以主题为坐标的低维表达,该表达也就是文档的主题概率分布。

概率隐性语义索引(probabilistic Latent Semantic Indexing, pLSI)是Hofmann在1999年提出的一个主题模型,旨在寻找一个从词项空间到隐性语义(即主题)空间的变换。
pLSI生成数据集的步骤如下:

  1. 选择一个文档编号 d ∼ p ( d ) d \sim p(d) dp(d)
  2. 对文档d中的每个单词重复以下过程:
    1. 选择一个隐含主题 z ∼ p ( z ∣ d ) z \sim p(z|d) zp(zd)
    2. 生成一个单词 w ∼ p ( w ∣ z ) w \sim p(w|z) wp(wz)
      观察上述过程,容易得到模型的两组主要参数$p(w | z) 和 和 p(z | d)$,即个主题下的词项分布和各文档的主题概率分布,由于没有概率分布的类型,这两组参数其实就是两张二维的参数表,需要通过参数估计来确定二维表的每个参数的值。

共轭先验分布,如果后验概率和先验概率满足同样的分布,那么先验分布和后验分布被叫做共轭分布,同时先验分布叫做似然函数的共轭先验分布:
P ( θ ∣ x ) = P ( x ∣ θ ) ⋅ P ( θ ) P ( x ) ∝ P ( x ∣ θ ) ⋅ P ( θ ) P(\theta | x)=\frac{P(x | \theta) \cdot P(\theta)}{P(x)} \propto P(x | \theta) \cdot P(\theta) P(θx)=P(x)P(xθ)P(θ)P(xθ)P(θ)
采用共轭先验分布的原因是:一方面可以使得先验分布和后验分布的形式相同,符合人的直觉;另一方面,可以形成一个先验链,即现在的后验部分可以作为下一次计算的先验分布。

举个例子,二项分布的似然函数是: P ( x ∣ θ ) = θ x ⋅ ( 1 − θ ) 1 − x P(x | \theta)=\theta^{x} \cdot(1-\theta)^{1-x} P(xθ)=θx(1θ)1x,其共轭分布是Beta分布, P ( θ ∣ α , β ) = θ α − 1 ( 1 − θ ) β − 1 ∫ 0 1 θ α − 1 ( 1 − θ ) β − 1 d θ P(\theta | \alpha, \beta)=\frac{\theta^{\alpha-1}(1-\theta)^{\beta-1}}{\int_{0}^{1} \theta^{\alpha-1}(1-\theta)^{\beta-1} d \theta} P(θα,β)=01θα1(1θ)β1dθθα1(1θ)β1,根据贝叶斯公式计算后验概率如下:
P ( θ ∣ x ) ∝ P ( x ∣ θ ) ⋅ P ( θ ) ∝ ( θ x ( 1 − θ ) x ) ( θ α − 1 ( 1 − θ ) β − 1 ) = θ x + α − 1 ( 1 − θ ) 1 − x − α − 1

P(θ|x)P(x|θ)P(θ)(θx(1θ)x)(θα1(1θ)β1)=θx+α1(1θ)1xα1
P(θx)P(xθ)P(θ)(θx(1θ)x)(θα1(1θ)β1)=θx+α1(1θ)1xα1
归一化这个后验概率可以得到另一个Beta分布。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/85731
推荐阅读
相关标签
  

闽ICP备14008679号