当前位置:   article > 正文

我对隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)的理解_潜在狄利克雷分布模型lda克服了文本分析中的哪些缺点

潜在狄利克雷分布模型lda克服了文本分析中的哪些缺点

LDA应用场景

  • 可以做文本内容提取,比如提取“穆斯林的葬礼”的主题,可能会提取出爱情主题,社会悲剧主题,比如提取“大圣归来影评”的主题,可能提取出怀旧主题,制作精良主题。而每个主题是用一些词语表示的,并非用一句完整的话阐述主题内容。你若想知道每个主题具体代表什么含义,可以通过主题词语自己主观猜测,或者把主题词语溯源到文本,自己读读文本总结。

名词介绍

  • 在贝叶斯概率理论中,如果后验概率p(θ│x) 和先验概率p(θ) 满足同样的分布律,那么先验分布和后验分布被叫做共轭分布,同时先验分布p(θ)叫做似然函数p(x|θ)的共轭先验分布。p(θ│x)∝p(x|θ)p(θ)
  • p(x|θ): 似然分布,为啥叫似然,似然,像什么什么的样子,X这个变量像什么什么的样子时候的概率就叫似然概率呗,在这里x为词语属于某个主题的次数。
  • p(θ): 在这里θ是主题概率,比如一共三个主题,文本的主题分布有可能是(0.1,0.1,0.8),也有可能是(0.2,0.2,0.6),用(θ1,θ2,1-θ1-θ2)代替,那么θ1,θ2的分布函数就是p(θ)。为啥叫先验分布,没给任何信息时候(文本里每个词属于哪个主题未知)时候,可能的主题分布就叫先验分布。
  • p(θ│x): 为啥后验分布,因为这是给定x时(词语属于某个主题的次数)的主题分布。
  • 为啥p(θ)构造成Dirichlet分布? 不让他是喜闻乐见的正态分布?
    因为简单,工程构造的;正态分布的定义域是实数域的,而θ的取值只能从0到1的。

调参时∂的含义

  • 工程构造了主题概率θ服从狄利克雷分布,即如下,k个参数∂预测k-1个参数p(如下公式里的p就是这里的θ),我们实际调参的时候,参数是(∂,k),即令所有∂都相等,这时的狄利克雷分布被称为对称狄利克雷分布
    在这里插入图片描述在这里插入图片描述
  • 图1来自:邹博的机器学习课程
    图像说明: 将dirichlet分布的概率密度函数取对数,绘制对称dirichlet分布的图像,取k=3,即底下两个坐标为θ1和θ2,∂1=∂2=∂3=∂
    ∂=1时,dirichlet分布变为均匀分布,所有的点被选到的概率相同
    ∂>1时,更容易取到中间的点,因为概率最大,此时θ1=θ2=θ3的那些点更容易被取到
    ∂<1时,更容易取到是边上那三个高的点,此时θ (i)=1,其他的概率为0
    即若输出的主题不鲜明时,可以把∂调成小于1的值

LDA是如何由文本得到主题词及每篇文档的主题分布呢

令这批文本一共有3个主题,每个主题用6个词表示,即每个主题都是6个主题词.
在这里插入图片描述

优缺点

  • 优点:能解决一次多义和多词一义的问题。
  • 缺点:文本颠倒顺序后不影响最后的结果。

实际工程经验

我曾经做过一个30w条样本,每条内容在100字左右的文本内容提取,发现调不调参无所谓,主题都很鲜明,提取出来的主题也的确是真实的主题。
之前写过的案例

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/782411
推荐阅读
相关标签
  

闽ICP备14008679号