赞
踩
社会计算是指社会科学和计算技术交叉融合而成的一个研究领域,研究如何利用计算系统帮助人们进行沟通与协作,研究如何利用计算技术分析社会运行的规律与发展趋势,即以社交网络和社会媒体为研究对象,从中发现社会关系、社会行为的规律。
社会计算的研究内容包括:
社会计算的研究理论工具:
社会媒体是指互联网上基于用户关系的内容生产与交换平台,其特点有:1)多对多;2)丰富的用户交互特性。
社会媒体数据通常用图或者矩阵的形式进行表示。现实世界中的大规模网络往往具有一些共同的性质:无标度分布、小世界效应、强社区结构。
社会媒体挖掘的意义:
社会媒体挖掘的挑战:
本课程关注的社会计算任务:
复杂网络是指那些结构复杂、无规则、随时间动态变化的网络。
哥尼斯堡七桥问题:只有当图中度为奇数的顶点不超过两个,这样的路径才存在。
图的基础知识:
图的表示:
图的类型:
通路是指依次遍历相邻边产生的边序列,分为开通路和闭通路。通路可以用边序列或者节点序列表示。通路的长度是指经过的边的数量。边不重复的通路称为简单通路,闭合的简单通路称为环路。节点和边都不重复的通路称为路径,闭合的路径称为回路。欧拉环路是指图中所有边均只被遍历一次的环路,哈密尔顿回路是指遍历了图中所有节点的回路。如下图所示:
图的连通性:如果节点 v i v_i vi和节点 v j v_j vj之间有路径连接,那么称节点 v i v_i vi可连接到节点 v j v_j vj,即可达。无向图的可达性对称,有向图的可达性不一定对称。任意节点相互可达的有向图称为强联通有向图,不考虑相互约束,称为弱连通有向图。同理可以基于子图和连通性定义连通分支、强连通分支和弱连通分支。
最短路径可以使用Dijstra算法和Prim算法进行求解。
图的直径是指任意两个节点之间距离中的最大值。图的平均距离是指图中所有节点对的距离的平均值。
特殊图包括:树、森林、生成树、完全图、平面图、二分图、正则图
图算法:最大流算法、Prim算法、Dijstra算法。
度中心性认为具有更多链接关系的节点具有更高的中心性,我们可以使用最大可能度数(n-1)、最大度数、度数和对度中心性进行归一化。
特征向量中心性是度中心性的一种扩展,其试图通过结合无向图中的邻居节点的重要性来修正度中心性,计算如下: c e ( v i ) = 1 λ ∑ j = 1 n A j , i c e ( v j ) c_{e}\left(v_{i}\right)=\frac{1}{\lambda} \sum_{j=1}^{n} A_{j, i} c_{e}\left(v_{j}\right) ce(vi)=λ1∑j=1nAj,ice(vj)。
Katz中心性修正了特征向量中心性的一个缺点:没有入边的特征向量中心性为0,计算如下: C K a t z ( v i ) = α ∑ j = 1 n A j , i C K a t z ( v j ) + β C_{\mathrm{Katz}}\left(v_{i}\right)=\alpha \sum_{j=1}^{\mathrm{n}} A_{j, i} C_{\mathrm{Katz}}\left(v_{j}\right)+\beta CKatz(vi)=α∑j=1nAj,iCKatz(vj)+β。
PageRank中心性认为并不是中心性用户所关注的每一个人都是中心性用户,解决方案是让中心性除以节点的出度,这样每个邻居节点获取源节点中心性的一部分。 C p ( v i ) = α ∑ j = 1 n A j , i C p ( v j ) d j o u t + β C_{p}\left(v_{i}\right)=\alpha \sum_{j=1}^{n} A_{j, i} \frac{C_{p}\left(v_{j}\right)}{d_{j}^{\mathrm{out}}}+\beta Cp(vi)=α∑j=1nAj,idjoutCp(vj)+β。
介数中心性度量方法是考虑节点在连接其他节点时所表现出来的重要性,计算其他节点间最短路径中有多少条要通过节点??,这个比重是多少,公式如下:
C
b
(
v
i
)
=
∑
s
≠
t
≠
v
i
σ
s
t
(
v
i
)
σ
s
t
C_{b}\left(v_{i}\right)=\sum_{s \neq t \neq v_{i}} \frac{\sigma_{s t}\left(v_{i}\right)}{\sigma_{s t}}
Cb(vi)=∑s̸=t̸=viσstσst(vi),归一化的介数中心性:
C
b
norm
(
v
i
)
=
C
b
(
v
i
)
2
(
n
−
1
2
)
C_{b}^{\operatorname{norm}}\left(v_{i}\right)=\frac{C_{b}\left(v_{i}\right)}{2 \left(
紧密度中心性,在一个连通图中,节点越接近中心,它越能快速地到达其他节点,这些节点与其他节点之间平均路径长度应该较小,因此定义紧密度中心性, C c ( v i ) = 1 l ‾ v i C_{c}\left(v_{i}\right)=\frac{1}{\overline{l}_{v_{i}}} Cc(vi)=lvi1,其中 l ‾ v i = 1 n − 1 ∑ v j ≠ v i l i , j \overline{l}_{v_{i}}=\frac{1}{n-1} \sum_{v_{j} \neq v_{i}} l_{i, j} lvi=n−11∑vj̸=vili,j。
群体中心性,上述所有的中心性度量方法都是针对单个节点而定义的,这里讨论如何将度中心性、紧密度中心性、介数中心性的定义扩展到一组节点组成的集合上。
传递性,在社交网络中,传递性就是我朋友的朋友就是我的朋友,传递性可以通过聚类系数或局部聚类系数进行度量。 C = ( Number of Triangles ) × 3 Number of Connected Triples of Nodes C=\frac{(\text { Number of Triangles }) \times 3}{\text { Number of Connected Triples of Nodes }} C= Number of Connected Triples of Nodes ( Number of Triangles )×3。
相互性:相互性是简化的传递性,它只考虑有向图中长度为2的闭合循环。
相似性分为结构相似性和规则相似性,结构相似性的度量方法有Jaccard 相似度: σ J a c c a r d ( v i , v j ) = ∣ N ( v i ) ∩ N ( v j ) ∣ ∣ N ( v i ) ∪ N ( v j ) ∣ \sigma_{J a c c a r d}\left(v_{i}, v_{j}\right)=\frac{\left|N\left(v_{i}\right) \cap N\left(v_{j}\right)\right|}{\left|N\left(v_{i}\right) \cup N\left(v_{j}\right)\right|} σJaccard(vi,vj)=∣N(vi)∪N(vj)∣∣N(vi)∩N(vj)∣和Cosine相似度 σ cosine ( v i , v j ) = ∣ N ( v i ) ∩ N ( v j ) ∣ ∣ N ( v i ) ∣ ∣ N ( v j ) ∣ \sigma_{\text { cosine }}\left(v_{i}, v_{j}\right)=\frac{\left|N\left(v_{i}\right) \cap N\left(v_{j}\right)\right|}{\sqrt{\left|N\left(v_{i}\right)\right|\left|N\left(v_{j}\right)\right|}} σ cosine (vi,vj)=∣N(vi)∣∣N(vj)∣ ∣N(vi)∩N(vj)∣。在规则相似性里,我们并不注重个体间共有的邻居节点,而是关注邻居节点自身的相似程度,通过比较邻居节点的相似度来确定节点间的相似度,而不是通过共有的邻居节点来确定。
真实网络的常见属性包括:1)度分布——幂律分布2)聚类系数——普遍较高3)平均路径长度——普遍较短。
社会媒体中节点度通常是指一个人的朋友数量(无向图中的度)或粉丝数量(关注网络中的入度),这个度分布通常满足幂律分布: ln p k = − b ln k + ln a \ln p_{k}=-b \ln k+\ln a lnpk=−blnk+lna, p k p_k pk表示节点度为?的节点在整个网络节点中所占的比例。
符合幂律分布的网络通常叫做无标度网络(Scale-Free networks)。
图论中,聚类系数是表示节点聚集程度的系数。
全局集聚系数基于节点三元组,是所有三元组(包括开三元组和闭三元组)中闭三元组所占比例,图中一个节点的局部集聚系数表示它的相邻节点形成一个团(完全图)的紧密程度,
C
i
=
{
k
i
d
i
×
(
d
i
−
1
)
/
2
d
i
>
1
0
d
i
=
0
or
1
C_{i}=\left\{
在真实网络中,网络中任意两个用户都可以经过一条比较短的朋友关系链进行关联,评论路径长度定义为: l G = 1 n ⋅ ( n − 1 ) ⋅ ∑ i , j d ( v i , v j ) l_{G}=\frac{1}{n \cdot(n-1)} \cdot \sum_{i, j} d\left(v_{i}, v_{j}\right) lG=n⋅(n−1)1⋅∑i,jd(vi,vj)。
随机图模型,节点之间的边是随机生成的,我们讨讨论两种随机图模型, G ( n , p ) G(n, p) G(n,p),节点之间存在连边的概率; G ( n , m ) G(n, m) G(n,m),m是生成边的数量。
小世界网络模型是Watts和Strogatz在1998年提出的基于人类社会网络的网络生成模型,它通过调节一个重链参数?可以从正则网络向随机网络过渡,该模型称为WS小世界模型。正则网络是指任何一个节点的近邻数目都相同的网络。
优先链接模型由Albert-László Barabási and Réka Albert在1999年提出,当新的节点加入到网络时,它们更倾向于连接那些与网络中较多节点相连的节点。
贝叶斯概率是贝叶斯网络运行的理论基础,其原理和应用相对比较简单。
先验概率是指根据历史的资料或主观判断所确定的各种事件发生的概率,该概率没有经过实验证实,属于检验前的概率。
后验概率一般是指通过贝叶斯公式,结合调查等方式获取了新的附加信息,对先验概率修正后得到的更符合实际的概率。
似然条件概率:当条件确定时,某事件发生的概率就是该事件的条件概率。
贝叶斯公式: P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ i = 1 n P ( B i ) P ( A ∣ B i ) P\left(B_{i} | A\right)=\frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{i=1}^{n} P\left(B_{i}\right) P\left(A | B_{i}\right)} P(Bi∣A)=∑i=1nP(Bi)P(A∣Bi)P(Bi)P(A∣Bi)。
有向概率图模型:贝叶斯网络(BN)、隐马尔科夫模型(HMM);
无向概率图模型:马尔科夫随机场(MRF)、条件随机场(CRF);
混合概率图模型:链图(CG)。
贝叶斯网络:联合分布: P ( X 1 , … , X n ) = ∏ i P ( X i ∣ Pa ( X i ) ) P\left(X_{1}, \ldots, X_{n}\right)=\prod_{i} P\left(X_{i} | \operatorname{Pa}\left(X_{i}\right)\right) P(X1,…,Xn)=∏iP(Xi∣Pa(Xi))。
极大似然估计的步骤:
极大似然估计存在以下问题:对于许多具体问题不能构造似然函数解析表达式?(?|?);似然函数表达式过于复杂而导致难以求解最值。正是在这种情况下,人们提出了基于数值迭代的EM算法。
EM算法主要用于非完全数据参数估计,它通过假设隐变量的存在,可以大大简化似然函数方程,以迭代的方式寻找使似然函数?(?|?)达到最大的参数。
Markov Chain Mento Carlo采样方法(简称MCMC方法)主要用于统计推理中的模拟抽样,尤其在贝叶斯推理中有着非常广泛的应用。
直观上,主题就是一个概念、一个方面,它表现为一系列相关的词语,数学上,主题就是词汇表上词语的条件概率分布。在自然语言处理中,主题(topic)可以看成是词项空间(或词典、词汇表)上的概率分布。
主题模型起源于隐性语义索引(Latent Semantic Indexing, LSI),隐性语义索引并不是概率模型,因此也算不上一个主题模型,但是其基本思想为主题模型的发展奠定了基础。
在LSI的基础上,Hofmann提出了概率隐性语义索引(probabilistic Latent Semantic Indexing, pLSI),该模型被看成是一个真正意义上的主题模型。
Blei等人提出的LDA(Latent Dirichlet Allocation)又在pLSI的基础上进行了扩展得到一个更为完全的概率生成模型。
主题模型的主要内容包括:
主题模型的主要输入是文档集合,由于交换性的假设,文档集合等价于词项-文档矩阵。主题模型的另一个输入是主题个数?,通常,?的大小需要在模型训练前指定,而且存在一定的经验性。
主题模型中的一个重要假设是词袋(bag of words)假设,即一篇文档内的词项可以交换次序而不影响模型的训练结果。
主题模型的表示有两种,分别是使用图模型和生成过程。以LDA模型为例,下图是使用图模型的方法对LDA模型进行表示:
我们也可以通过生成过程来对主题模型进行描述,LDA模型是按照如下图所示的方式生成一篇文档,重复?次则生成整个语料:
主题模型中,最重要的两组参数分别是各文档的主题概率分布和各主题下的词项概率分布,参数估计可以看成是生成过程的逆过程:即在已知文档集(即生成的结果)的情况下,通过参数估计,得到参数值。针对参数估计,我们需要选择最优化的目标函数,在主题模型中通常是整个语料的概率似然。
以LDA模型为例,根据其概率模型很容易得到语料概率似然值
p
(
D
∣
α
,
β
)
p(D|\alpha, \beta)
p(D∣α,β)为:
∏
d
=
1
M
∫
p
(
θ
d
∣
α
)
(
∏
n
=
1
N
d
∑
z
d
n
p
(
z
d
n
∣
θ
d
)
p
(
w
d
n
∣
z
d
n
,
β
)
)
d
θ
d
\prod_{d=1}^{M} \int p\left(\theta_{d} | \alpha\right)\left(\prod_{n=1}^{N_{d}}\sum_{z_{d n}} p\left(z_{d n} | \theta_{d}\right) p\left(w_{d n} | z_{d n}, \beta\right) \right) \mathrm{d} \theta_{d}
d=1∏M∫p(θd∣α)(n=1∏Ndzdn∑p(zdn∣θd)p(wdn∣zdn,β))dθd
其中,D代表整个语料,也就是所有文档的集合,
N
d
N_d
Nd表示第d篇文档的长度,
θ
d
\theta _d
θd表示第d篇文档的主题概率分布,
w
d
n
w_{dn}
wdn表示第d篇文档的第n个单词,
z
d
n
z_{dn}
zdn表示
w
d
n
w_{dn}
wdn的主题,该函数以
α
\alpha
α和
β
\beta
β为参数,通过对目标函数进行最大化来估计
α
\alpha
α 和
β
\beta
β的值。
主题模型训练完成后,我们便可以使用训练好的主题模型对新的样本进行推断,通过主题模型将以词项空间表达的文档变换到新的主题空间,得到一个以主题为坐标的低维表达,该表达也就是文档的主题概率分布。
概率隐性语义索引(probabilistic Latent Semantic Indexing, pLSI)是Hofmann在1999年提出的一个主题模型,旨在寻找一个从词项空间到隐性语义(即主题)空间的变换。
pLSI生成数据集的步骤如下:
共轭先验分布,如果后验概率和先验概率满足同样的分布,那么先验分布和后验分布被叫做共轭分布,同时先验分布叫做似然函数的共轭先验分布:
P
(
θ
∣
x
)
=
P
(
x
∣
θ
)
⋅
P
(
θ
)
P
(
x
)
∝
P
(
x
∣
θ
)
⋅
P
(
θ
)
P(\theta | x)=\frac{P(x | \theta) \cdot P(\theta)}{P(x)} \propto P(x | \theta) \cdot P(\theta)
P(θ∣x)=P(x)P(x∣θ)⋅P(θ)∝P(x∣θ)⋅P(θ)
采用共轭先验分布的原因是:一方面可以使得先验分布和后验分布的形式相同,符合人的直觉;另一方面,可以形成一个先验链,即现在的后验部分可以作为下一次计算的先验分布。
举个例子,二项分布的似然函数是:
P
(
x
∣
θ
)
=
θ
x
⋅
(
1
−
θ
)
1
−
x
P(x | \theta)=\theta^{x} \cdot(1-\theta)^{1-x}
P(x∣θ)=θx⋅(1−θ)1−x,其共轭分布是Beta分布,
P
(
θ
∣
α
,
β
)
=
θ
α
−
1
(
1
−
θ
)
β
−
1
∫
0
1
θ
α
−
1
(
1
−
θ
)
β
−
1
d
θ
P(\theta | \alpha, \beta)=\frac{\theta^{\alpha-1}(1-\theta)^{\beta-1}}{\int_{0}^{1} \theta^{\alpha-1}(1-\theta)^{\beta-1} d \theta}
P(θ∣α,β)=∫01θα−1(1−θ)β−1dθθα−1(1−θ)β−1,根据贝叶斯公式计算后验概率如下:
P
(
θ
∣
x
)
∝
P
(
x
∣
θ
)
⋅
P
(
θ
)
∝
(
θ
x
(
1
−
θ
)
x
)
(
θ
α
−
1
(
1
−
θ
)
β
−
1
)
=
θ
x
+
α
−
1
(
1
−
θ
)
1
−
x
−
α
−
1
归一化这个后验概率可以得到另一个Beta分布。
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。