赞
踩
贝叶斯学习
的话题模型,是潜在语义分析、概率潜在语义分析的扩展,于2002年由Blei等提出。LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。
LDA模型是文本集合的生成概率模型
假设每个文本
由话题的一个多项分布
表示
每个话题
由单词的一个多项分布
表示
特别假设文本的话题分布
的先验分布是狄利克雷分布
话题的单词
分布的先验分布也是狄利克雷分布
先验分布的导入使LDA能够更好地应对话题模型学习中的过拟合现象
LDA的文本集合的生成过程如下:
LDA模型是含有隐变量
的概率图模型
狄利克雷分布(Dirichlet distribution)是一种多元连续随机变量的概率分布,是贝塔分布(beta distribution)的扩展。在贝叶斯学习中,狄利克雷分布常作为多项分布的先验分布使用。
定义:
多元连续随机变量
θ
=
(
θ
1
,
θ
2
,
.
.
.
,
θ
k
)
\theta = (\theta_1,\theta_2,...,\theta_k)
θ=(θ1,θ2,...,θk) 的概率密度函数为:
p
(
θ
∣
α
)
=
Γ
(
∑
i
=
1
k
α
i
)
∏
i
=
1
k
Γ
(
α
i
)
∏
i
=
1
k
θ
i
α
i
−
1
∑
i
=
1
k
θ
i
=
1
,
θ
i
≥
0
,
α
i
>
0
,
记
作
θ
∼
D
i
r
(
α
)
p(\theta|\alpha) = \frac{\Gamma \bigg(\sum\limits_{i=1}^k \alpha_i\bigg)}{\prod\limits_{i=1}^k \Gamma(\alpha_i)} \prod\limits_{i=1}^k \theta_i^{\alpha_i-1}\quad \sum\limits_{i=1}^k \theta_i = 1, \theta_i\ge 0,\alpha_i >0,记作\theta \sim Dir(\alpha)
p(θ∣α)=i=1∏kΓ(αi)Γ(i=1∑kαi)i=1∏kθiαi−1i=1∑kθi=1,θi≥0,αi>0,记作θ∼Dir(α)
伽
马
函
数
,
Γ
(
s
)
=
∫
0
∞
x
s
−
1
e
−
x
d
x
,
s
>
0
伽马函数,\Gamma(s) = \int_0^{\infty} x^{s-1}e^{-x}dx, \quad s>0
伽马函数,Γ(s)=∫0∞xs−1e−xdx,s>0
伽马函数性质:
Γ
(
s
+
1
)
=
s
Γ
(
s
)
\Gamma(s+1) = s\Gamma(s)
Γ(s+1)=sΓ(s)
当
s
s
s 是自然数时,有
Γ
(
s
+
1
)
=
s
!
\Gamma(s+1) = s!
Γ(s+1)=s!
LDA模型是概率图模型:
狄利克雷分布
为多项分布的先验分布利用LDA进行话题分析,就是对给定文本集合,学习到每个文本的话题分布,以及每个话题的单词分布。
狄利克雷分布
作为先验分布,而PLSA不使用先验分布
(或者说假设先验分布是均匀分布),两者对文本生成过程有不同假设LDA模型的学习与推理不能直接求解。
吉布斯抽样算法
和变分EM算法
蒙特卡罗法
,而后者是近似算法
sklearn.decomposition.LatentDirichletAllocation官网介绍
class sklearn.decomposition.LatentDirichletAllocation(n_components=10,
doc_topic_prior=None, topic_word_prior=None, learning_method='batch',
learning_decay=0.7, learning_offset=10.0, max_iter=10, batch_size=128,
evaluate_every=-1, total_samples=1000000.0, perp_tol=0.1,
mean_change_tol=0.001, max_doc_update_iter=100, n_jobs=None, verbose=0,
random_state=None)
n_components
, optional (default=10),话题数量
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。