当前位置: article > 正文

最通俗易懂的 tf idf (词频逆向文本频率)的解释_逆频率

作者：神奇cpp | 2024-07-03 05:31:23

踩

逆频率

首先 tf * idf 的公式:
在这里插入图片描述

就问你头大不大
举个例子
如果你现在有一个菜谱, 其中一篇叫做西红柿炒鸡蛋, 其中最多的词叫做鸡蛋, 其他词例如西红柿, 糖, 水, 食用油等 …

鸡蛋的这个词出现的次数是最高的, 所有词频也是最高的
即 TF鸡蛋 = c鸡蛋/c鸡蛋 == 1
西红柿的出现频率略低为 TF西红柿 = c西红柿/c鸡蛋 = 0.8
所以 TF词频越高, 词越重要(鸡蛋在西红柿炒鸡蛋中很重要)

现在我们假设菜谱中每一道菜中都含有鸡蛋
所以鸡蛋的逆向文本频率为 IDF鸡蛋 = log2(c所有菜谱/c含有鸡蛋的菜谱) = log2(1) == 0
说明如果每一篇菜谱中都出现鸡蛋, 那鸡蛋在菜谱中就不是什么特殊的东西, 没有特征性

但是如果你在一本100页高等数学中发现了一篇含有鸡蛋这个词
那么 IDF鸡蛋 = log2(c高等数学 / c含有鸡蛋的片章) = log2(100) = 10
所以鸡蛋在高等数学的IDF就为10, 还是很重要的因为高等数学中只有一篇有鸡蛋这个词

最后我们把菜谱中鸡蛋在文本出现的频率, 和含有鸡蛋这个词的篇章在整个菜谱中出现的逆频率相乘, 就得到了鸡蛋的 TF IDF

TFIDF鸡蛋 = TF鸡蛋 * IDF鸡蛋

总结一下: 如果我们想在一篇文档中判断某一个词是否重要, 我们希望这个词在该文件中尽可能的大, 所以为(正向)频率
如果我们希望判断一个词在整个文本中是否重要, 我们希望这个词在这整个文本尽可能的集中, 即逆向频率尽可能的大

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/神奇cpp/article/detail/782088