Latent Dirichlet Allocation (LDA)_latentdirichletallocation参数

作者：小蓝xlanll | 2024-03-06 02:40:23

踩

latentdirichletallocation参数

文章目录

LDA可以用来干什么?
LDA模型简单引入与贝叶斯估计

LDA可以用来干什么?

我们拿到一篇文章，然后读完就基本可以知道它是讲什么的，比如是讲“中国经济发展状况”，或者是讲“中美贸易战对两国的影响”，又或者是在讲“农村里的爱情故事”…LDA就是在做一个类似的事情：让计算机读一篇文章，然后概括出来这篇文章在讲什么内容，即这篇文章的主题是什么。所以，LDA是一个主题模型（Topic Model）。

下面开始正文。

LDA模型简单引入与贝叶斯估计

现在思考一个问题：如何生成（写）一篇文章？

第一种比较易于理解的想法是：我有一个词袋，比如（单词1，单词2，单词3，…，单词n），它们具有一定的概率分布（ $p_1, ..., p_n$ ）。然后我就从这个词袋里面选一个词，然后重复n次，就构成了一个由n个单词组成的文章。它的分布其实是一个多项式分布（后面介绍）。这也就是 Unigram Model。

进一步地想法就是，可能上述方法生成过程太过简单，词跟词之间可能根本没有联系。所以更现实的情况就是：我们先选定一个主题，然后再去确定这个主题下用什么词（袋）。就像我们写作文，确定好了题目要写“小草”，大概率会用到“绿色”、“不起眼”等词，应该不太可能出现“汪洋、深海恐惧症”这一类的词。所以，如何生成一篇文章？可以先以一定的概率生成主题，然后再以一定概率生成词。比如，图中这个例子，我们可以先从“文档-主题”骰子中以｛教育：0.2，经济：0.6，交通：0.2｝的概率分布选出一个主题。比如选出的主题的“经济”，我们再从“主题-单词”骰子中以｛市场：0.4，金融：0.4，企业：0.2｝的概率选出一个词。然后重复上述选词过程n次，我们就生成了一篇n个字的文章。如果我们重复文章生成一个大过程m次，我们就生成了m篇文章。这就是PLSA Model。PLSA这个过程，同Unigram Model一样，没有关注词跟词之间的顺序，只不过认为词跟词之间可能有一些隐含的主题类别。

在这里插入图片描述
贝叶斯学派对上述PLSA模型又提出了疑问。 为什么“文档-主题”骰子和“主题-单词”骰子就是一个确定的概率呢？还是以上图的例子为例，PLSA模型认为主题分布和词分布是唯一确定的，比如主题分布就是｛教育：0.2，经济：0.6，交通：0.2｝，“经济主题”的词分布就是｛市场：0.4，金融：0.4，企业：0.2｝。贝叶斯学派认为，主题分布和词分布不再唯一确定不变，即无法确切给出。比如，主题分布可能是｛教育：0.2，经济：0.6，交通：0.2｝，那也有可能是{教育：0.6，经济：0.2，交通：0.2}，到底是哪个我们也不确实，它也是随机变化的。但再怎么变化，也依然服从一定的分布，即主题分布跟词分布由Dirichlet分布（后面介绍）随机确定。所有有一句话，Dirichlet分布是分布的分布。像上述例子，分布的分布理解：第一个分布就是指“｛教育：0.2，经济：0.6，交通：0.2｝”，第二个分布是指“那到底是｛教育：0.2，经济：0.6，交通：0.2｝还是{教育：0.6，经济：0.2，交通：0.2}”。这就是LDA Modeling。

LDA Modeling里面那个疑问，就是贝叶斯学派的思想。在此之前，我们先回归一下高数里经常用到的贝叶斯公式：

在这里插入图片描述
把这个公式稍微变一下，得到贝叶斯估计：

其中， $\pi(\theta)$ 为参数 $\theta$ 的先验分布，表示对参数 $\theta$ 的主观认识，是非样本信息。 $\pi(\theta|x)$ 为参数 $\theta$ 的后验分布。因此，贝叶斯估计可以看作是，在假定 $\theta$ 服从 $\pi(\theta)$ 的先验分布的前提下，

其实贝叶斯学派与传统频率学派的核心区别就像上面LDA与PLSA的例子一样，对于待估参数 $\theta$ 有不同的观点：传统频率学派认为待估计参数 $\theta$ 是确定的，是客观存在的；贝叶斯学派认为待估计参数 $\theta$ 也是随机的，和一般随机变量没有本质区别。他们的估计方法自然也不同，频率学派用极大似然估计，贝叶斯学派则使用贝叶斯估计。

二项分布与多项分布

高数都学过二项分布。举一个简单例子回顾：掷一枚均匀的硬币，正面出现概率0.5，反面出现概率0.5。连续掷n次，问n次里面出现k次正面（自然，反面就是n-k次）的概率是多少？这里面涉及的概率分布就是一个二项分布的概念。

下面给出更一般的概念：二项分布是n个独立的成功/失败试验中成功的次数的离散概率分布，其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上，当n=1时，二项分布就是伯努利分布。

在这里插入图片描述
下面引入多项分布：多项分布是二项分布的推广。多项分布是指单次试验中的随机变量的取值不再是0-1的，而是有多种离散值可能 $(1, 2, 3, . . ., k)$ ，并且 $\sum_{i=1}^k p_i= 1$ 。比如，从掷硬币换成掷骰子（6个面）。

多项分布的概率函数如下：
在这里插入图片描述

共轭分布

MCMC采样

怎样理解采样？
计量经济学在一开始就介绍了两个概念“样本（Sample）”和“总体（Population）”。很多情况下（比如总体包含个体太多，普查成本太高），我们没有办法去直接研究“总体”，所以我们从总体中进行采样（抽样），得到“样本”。但是由于样本来自于总体，必然带有总体的信息。因此我们希望通过研究样本，可以对总体得到一些了解。（下面也会举一些具体的例子）

MCMC = Markov Chain（马尔科夫链）+ Monte Carlo（蒙特卡洛）

https://zhuanlan.zhihu.com/p/170997785
https://blog.csdn.net/pipisorry/article/details/42649657
https://www.cnblogs.com/pinard/p/6831308.html

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小蓝xlanll/article/detail/195659