词频和逆文档频率算法 TF-IDF_词频标准化频率

作者：Cpp五条 | 2024-04-07 18:56:01

踩

词频标准化频率

词频和逆文档频率算法简单快速，结果处理符合实际情况，可以用在关键词提取，信息检索等很多地方。

如果我们有一篇很长的文章，如何获得关键词呢？
根据信息熵理论，一个词出现的次数越多，这个词包含的信息量就越小。可以说，TF-IDF算法就是基于这一理论的。

这篇文章我们称之为Document, 这篇文章属于一个 Collection(集合)。

TF, Term Frequency, 词频
IDF, Inverse Document Frequency, 逆文档频率

将Document进行分词，去停留词。

标准化：词频(TF) = 某个词在文章中出现的次数 / 文章的总词数

逆文档频率(IDF) = log(collection总文档数 / (包含该词的文档数 + 1))

使用了 add-1 方法，避免 0 分母

TF-IDF = TF x IDF

TF-IDF与一个词在Document中出现的次数成正比，与该词在Collection中出现的次数成反比。

设定一个Collection, 比如使用Google进行检索。
对Document的每个词做TF-IDF，降序排列。排在前面的就是关键词。

如果我们只想分析一个词的重要性，而不针对文章，我们可以单独的使用IDF值。

单纯以"词频"为基础计算一个词的重要性。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Cpp五条/article/detail/380004