赞
踩
要想更好地管理当今爆炸式的电子文档档案,需要使用新的技术或工具来处理自动组织、搜索、索引和浏览大型电子文档集合。在当今机器学习和统计学研究的基础上,利用层次概率模型在文档集合中发现单词模式的新技术被开发出来。这些模型叫做“主题模型”。模式的发现往往反映了潜在的主题,这些主题被联合起来形成文档,例如分层概率模型很容易被推广到其他类型的数据中;主题模型被用来分析文字之外的很多东西例如图像、生物数据、测量信息和数据。
主题建模的核心在于发现单词使用的模式和关联具有相同模式的文档。所以,主题模型的思想是可以与文档一起工作的术语,而这些文档是主题的混合体,其中主题是单词上的概率分布。换言之,主题模型是文档的生成模型。它指定了一个生成文档的简单概率过程。通过选择一种主题分布来创建一个新的文档。随后,文档中的每个单词都可以根据分布随机选择一个主题。然后从主题中抽取一个单词。
主题建模始于一种称为潜在语义分析(LSA)的线性代数方法:找到文档术语矩阵的最佳低秩近似。虽然这些方法在最近几年重新兴起,但我们将重点放在概率方法上,它是直观的、工作良好的,并且很容易扩展(正如我们在后面的许多章节中看到的那样)。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。