赞
踩
词频和逆文档频率算法简单快速,结果处理符合实际情况,可以用在关键词提取,信息检索等很多地方。
如果我们有一篇很长的文章,如何获得关键词呢?
根据信息熵理论,一个词出现的次数越多,这个词包含的信息量就越小。可以说,TF-IDF算法就是基于这一理论的。
这篇文章我们称之为Document, 这篇文章属于一个 Collection(集合)。
TF, Term Frequency, 词频
IDF, Inverse Document Frequency, 逆文档频率
将Document进行分词,去停留词。
标准化:词频(TF) = 某个词在文章中出现的次数 / 文章的总词数
逆文档频率(IDF) = log(collection总文档数 / (包含该词的文档数 + 1))
使用了 add-1 方法,避免 0 分母
TF-IDF = TF x IDF
TF-IDF与一个词在Document中出现的次数成正比,与该词在Collection中出现的次数成反比。
设定一个Collection, 比如使用Google进行检索。
对Document的每个词做TF-IDF,降序排列。排在前面的就是关键词。
如果我们只想分析一个词的重要性,而不针对文章,我们可以单独的使用IDF值。
单纯以"词频"为基础计算一个词的重要性。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。