赞
踩
在文本挖掘中,我们经常收集一些文档集合,例如博客文章或新闻文章,我们希望将其分成组,以便我们可以分别理解它们。最近我们被客户要求撰写关于主题模型的研究报告,包括一些图形和统计输出。主题建模是对这些文档进行无监督分类的一种方法,类似于对数字数据进行聚类,即使我们不确定要查找什么,也可以找到分组。
文本挖掘:主题模型(LDA)及R语言实现分析游记数据
时长12:59
潜在狄利克雷分配(LDA)是拟合主题模型特别流行的方法。它将每个文档视为主题的混合体,并将每个主题看作是单词的混合体。这允许文档在内容方面相互“重叠”,而不是分离成离散的组,以反映自然语言的典型用法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。