赞
踩
目录
以随机变量做节点所形成的有向无环图。
朴素贝叶斯:
一个词可能被映射到多个主题中——一词多义
多个词可能被映射到某个主题的概率很高——多词一义
PLSA/PLSI:probabilistic latent semantic analys. 可用EM算法来算(两层的贝叶斯网络)
LSI:Latent Semantic Indexing
SVD:
LDA(Latent Dirichlet Allocation):无监督/降维/聚类(三层的贝叶斯网络)
(注意:区分LDA(Linear Discriminant Analysis)线性判别分析,有监督,有监督方式的降维)
其中,Beta分布具有两个参数:α,β
注:Bete期望值和最大值点的位置不一定一样
先验概率和后验概率的关系
Alpha尽量的不要太大,减少先验的占比
判别模型:线性回归,逻辑回归,决策树,随机森林,SVM,CNN,CRF
生成模型:LDA(Latent Dirichlet Allocation),NB(贝叶斯网络),HMM
LDA是一个生成模型,大概流程如下:
(1) 共有m篇文档,一共涉及K个主题;
(2) 每篇文章(长度为Nm)都有各自的主题分布,主题分布是多项分布,该多项分布的参数服从对称Dirichlet分布,该对称Dirichlet分布的参数为α,k。
(3) 每个主题都有各自的词分布,词分布为多项分布,该多项分布的参数服从对称Dirichlet分布,该对称Dirichlet分布的参数为β,k。
(4) 对于某篇文章中的第n个词,首先从该文章的主题分布中采样一个主题,然后在这个主题对应的词分布中采样一个词。不断重复这个随机生成过程,直到m篇文章全部完成上述过程。
(1)由于在词和文档之间加入主题的概念,可以较好的解决一词多义和多词一义的问题。
(2)在实践中发现,LDA用于短文档往往效果不明显——这是可以解释的:因为一个词被分配给某个主题的次数和一个主题包括的词数目尚未收敛。往往需要通过其他方案“连接”成长文档。
(3)用户的评论/Twitter/微博。LDA可以和其他算法相结合。首先使用LDA将长度为Ni的文档降维到K维(主题的数目),同时给出每个主题的概率(主题分布),从而可以使用if-idf继续分析或直接作为文档的特征进入聚类或者标签传播算法——用于社区发现等问题。
Genism,开源实现库等
1. 针对国内某石油企业的例行检查处理结果,试通过主题模型方案,分析例检结果中最突出的问题是什么?
2.聊天记录分析感兴趣话题
数据处理流程:
(1)获取QQ群聊天记录:txt文本格式(图1)
(2)整理成“QQ号/时间/留言”的规则形式
(3)合并相同QQ号的留言
长文档利于计算每人感兴趣话题(图3)
(4)LDA模型计算主题
调参与可视化
(5)计算每个QQ号及众人感兴趣话题
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。