赞
踩
使用R语言进行主题发现:使用R语言进行主题发现(一) - 深度客 - 博客园
要在数据集中确定主题的个数,需要事先设定主题个数的搜索范围;然后分别使用LDA计算主题模型在不同主题数目下的困惑度或者似然估计数值,最终能够使得模型困惑度最低或者似然估计值最大的主题数即为最佳的主题个数。一般为了降低困惑度,通常还会采取交叉验证的方法进行。(由似然估计判别:抽取每个主题的对数似然估计值,计算各个主题的调和平均数,将其作为模型的最大似然估计)
python下进行lda主题挖掘(三)——计算困惑度perplexity
评估LDA主题模型-perflexity:LDA主题模型好坏的评估,判断改进的参数或者算法的建模能力。
topic-models-evaluation-in-gensim
gensim: CV Conference OR UMass Conference
https://github.com/fozziethebeat/TopicModelComparison
《主题模型在基于社交媒体的灾害分类中的应用及比较》对比LDA与BTM模型性能:分别从LDA、BTM模型(Bi-term Topic Model, BTM双词对主题模型)推断结果中的每一类随机抽取出 102 条、101 条进行人工判别检验,人为地将原文本归到该8个大类中。(将2种模型推断主 题的结果与人工判别主题结果进行精度检验和比 对,并且对模型的分类结果进行应用分析)
《基于主题模型的微博话题检测算法》:实验评估采用信息检测领域最常用的 3 个评价指标:准确率 P(precision)——结果中有多少是准确的、召回率即查全率 R(recall)——所有准确的结果中有多少被检测出来;综合评价指标 F 值(F-value)——准确率与召回率 的综合评价参数。
《不同语料下基于LDA主题模型的科学文献主题抽取效果分析》
定量评价:查准率、查全率和 F 值;信息熵。定性评价:主题抽取的广度(所抽取的有效主题在本学科领域内的覆盖 范围)和主题粒度(主题的细化程度)。主题抽取的广度越广,抽取的主题粒度越细,则主题抽取的效果越好。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。