当前位置:   article > 正文

最通俗易懂的 tf idf (词频逆向文本频率)的解释_逆频率

逆频率


首先 tf * idf 的公式:
​​ 在这里插入图片描述
在这里插入图片描述
就问你头大不大
举个例子
如果你现在有一个菜谱, 其中一篇叫做西红柿炒鸡蛋, 其中最多的词叫做 鸡蛋, 其他词例如 西红柿, 糖, 水, 食用油等 …
​​
​​鸡蛋的这个词出现的次数是最高的, 所有词频也是最高的
即 TF鸡蛋 = c鸡蛋/c鸡蛋 == 1
西红柿的出现频率略低 为 TF西红柿 = c西红柿/c鸡蛋 = 0.8
所以 TF词频越高, 词越重要(鸡蛋在西红柿炒鸡蛋中很重要)
​​
​​现在我们假设菜谱中每一道菜中都含有鸡蛋
所以鸡蛋的逆向文本频率为 IDF鸡蛋 = log2(c所有菜谱/c含有鸡蛋的菜谱) = log2(1) == 0
说明如果每一篇菜谱中都出现鸡蛋, 那鸡蛋在菜谱中就不是什么特殊的东西, 没有特征性
​​
​​但是如果你在一本100页高等数学中发现了一篇含有鸡蛋这个词
那么 IDF鸡蛋 = log2(c高等数学 / c含有鸡蛋的片章) = log2(100) = 10
所以鸡蛋在高等数学的IDF就为10, 还是很重要的因为高等数学中只有一篇有鸡蛋这个词
​​
​​最后我们把菜谱中 鸡蛋在文本出现的频率, 和含有鸡蛋这个词的篇章在整个菜谱中出现的逆频率相乘, 就得到了 鸡蛋的 TF IDF
​​
​​TFIDF鸡蛋 = TF鸡蛋 * IDF鸡蛋

总结一下: 如果我们想在一篇文档中判断某一个词是否重要, 我们希望这个词在该文件中尽可能的大, 所以为(正向)频率
如果我们希望判断一个词在整个文本中是否重要, 我们希望这个词在这整个文本尽可能的集中, 即 逆向频率尽可能的大

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/神奇cpp/article/detail/782088
推荐阅读
相关标签
  

闽ICP备14008679号