赞
踩
我们拿到一篇文章,然后读完就基本可以知道它是讲什么的,比如是讲“中国经济发展状况”,或者是讲“中美贸易战对两国的影响”,又或者是在讲“农村里的爱情故事”…LDA就是在做一个类似的事情:让计算机读一篇文章,然后概括出来这篇文章在讲什么内容,即这篇文章的主题是什么。所以,LDA是一个主题模型(Topic Model)。
下面开始正文。
现在思考一个问题:如何生成(写)一篇文章?
第一种比较易于理解的想法是:我有一个词袋,比如(单词1,单词2,单词3,…,单词n),它们具有一定的概率分布( p 1 , . . . , p n p_1, ..., p_n p1,...,pn)。然后我就从这个词袋里面选一个词,然后重复n次,就构成了一个由n个单词组成的文章。它的分布其实是一个多项式分布(后面介绍)。这也就是 Unigram Model。
进一步地想法就是,可能上述方法生成过程太过简单,词跟词之间可能根本没有联系。所以更现实的情况就是:我们先选定一个主题,然后再去确定这个主题下用什么词(袋)。就像我们写作文,确定好了题目要写“小草”,大概率会用到“绿色”、“不起眼”等词,应该不太可能出现“汪洋、深海恐惧症”这一类的词。所以,如何生成一篇文章?可以先以一定的概率生成主题,然后再以一定概率生成词。比如,图中这个例子,我们可以先从“文档-主题”骰子中以{教育:0.2,经济:0.6,交通:0.2}的概率分布选出一个主题。比如选出的主题的“经济”,我们再从“主题-单词”骰子中以{市场:0.4,金融:0.4,企业:0.2}的概率选出一个词。然后重复上述选词过程n次,我们就生成了一篇n个字的文章。如果我们重复文章生成一个大过程m次,我们就生成了m篇文章。这就是PLSA Model。PLSA这个过程,同Unigram Model一样,没有关注词跟词之间的顺序,只不过认为词跟词之间可能有一些隐含的主题类别。
贝叶斯学派对上述PLSA模型又提出了疑问。 为什么“文档-主题”骰子和“主题-单词”骰子就是一个确定的概率呢?还是以上图的例子为例,PLSA模型认为主题分布和词分布是唯一确定的,比如主题分布就是{教育:0.2,经济:0.6,交通:0.2},“经济主题”的词分布就是{市场:0.4,金融:0.4,企业:0.2}。贝叶斯学派认为,主题分布和词分布不再唯一确定不变,即无法确切给出。比如,主题分布可能是{教育:0.2,经济:0.6,交通:0.2},那也有可能是{教育:0.6,经济:0.2,交通:0.2},到底是哪个我们也不确实,它也是随机变化的。但再怎么变化,也依然服从一定的分布,即主题分布跟词分布由Dirichlet分布(后面介绍)随机确定。所有有一句话,Dirichlet分布是分布的分布。像上述例子,分布的分布理解:第一个分布就是指“{教育:0.2,经济:0.6,交通:0.2}”,第二个分布是指“那到底是{教育:0.2,经济:0.6,交通:0.2}还是{教育:0.6,经济:0.2,交通:0.2}”。这就是LDA Modeling。
LDA Modeling里面那个疑问,就是贝叶斯学派的思想。在此之前,我们先回归一下高数里经常用到的贝叶斯公式:
把这个公式稍微变一下,得到贝叶斯估计:
其中,
π
(
θ
)
\pi(\theta)
π(θ)为参数
θ
\theta
θ的先验分布,表示对参数
θ
\theta
θ的主观认识,是非样本信息。
π
(
θ
∣
x
)
\pi(\theta|x)
π(θ∣x)为参数
θ
\theta
θ的后验分布。因此,贝叶斯估计可以看作是,在假定
θ
\theta
θ服从
π
(
θ
)
\pi(\theta)
π(θ)的先验分布的前提下,
其实贝叶斯学派与传统频率学派的核心区别就像上面LDA与PLSA的例子一样,对于待估参数 θ \theta θ 有不同的观点:传统频率学派认为待估计参数 θ \theta θ 是确定的,是客观存在的;贝叶斯学派认为待估计参数 θ \theta θ 也是随机的,和一般随机变量没有本质区别。他们的估计方法自然也不同,频率学派用极大似然估计,贝叶斯学派则使用贝叶斯估计。
高数都学过二项分布。举一个简单例子回顾:掷一枚均匀的硬币,正面出现概率0.5,反面出现概率0.5。连续掷n次,问n次里面出现k次正面(自然,反面就是n-k次)的概率是多少?这里面涉及的概率分布就是一个二项分布的概念。
下面给出更一般的概念:二项分布是n个独立的成功/失败试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n=1时,二项分布就是伯努利分布。
下面引入多项分布:多项分布是二项分布的推广。多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能
(
1
,
2
,
3
,
.
.
.
,
k
)
(1, 2, 3, ..., k)
(1,2,3,...,k),并且
∑
i
=
1
k
p
i
=
1
\sum_{i=1}^k p_i= 1
∑i=1kpi=1。比如,从掷硬币换成掷骰子(6个面)。
多项分布的概率函数如下:
怎样理解采样?
计量经济学在一开始就介绍了两个概念“样本(Sample)”和“总体(Population)”。很多情况下(比如总体包含个体太多,普查成本太高),我们没有办法去直接研究“总体”,所以我们从总体中进行采样(抽样),得到“样本”。但是由于样本来自于总体,必然带有总体的信息。因此我们希望通过研究样本,可以对总体得到一些了解。(下面也会举一些具体的例子)
https://zhuanlan.zhihu.com/p/170997785
https://blog.csdn.net/pipisorry/article/details/42649657
https://www.cnblogs.com/pinard/p/6831308.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。