赞
踩
首先 tf * idf 的公式:
就问你头大不大
举个例子
如果你现在有一个菜谱, 其中一篇叫做西红柿炒鸡蛋, 其中最多的词叫做 鸡蛋, 其他词例如 西红柿, 糖, 水, 食用油等 …
鸡蛋的这个词出现的次数是最高的, 所有词频也是最高的
即 TF鸡蛋 = c鸡蛋/c鸡蛋 == 1
西红柿的出现频率略低 为 TF西红柿 = c西红柿/c鸡蛋 = 0.8
所以 TF词频越高, 词越重要(鸡蛋在西红柿炒鸡蛋中很重要)
现在我们假设菜谱中每一道菜中都含有鸡蛋
所以鸡蛋的逆向文本频率为 IDF鸡蛋 = log2(c所有菜谱/c含有鸡蛋的菜谱) = log2(1) == 0
说明如果每一篇菜谱中都出现鸡蛋, 那鸡蛋在菜谱中就不是什么特殊的东西, 没有特征性
但是如果你在一本100页高等数学中发现了一篇含有鸡蛋这个词
那么 IDF鸡蛋 = log2(c高等数学 / c含有鸡蛋的片章) = log2(100) = 10
所以鸡蛋在高等数学的IDF就为10, 还是很重要的因为高等数学中只有一篇有鸡蛋这个词
最后我们把菜谱中 鸡蛋在文本出现的频率, 和含有鸡蛋这个词的篇章在整个菜谱中出现的逆频率相乘, 就得到了 鸡蛋的 TF IDF
TFIDF鸡蛋 = TF鸡蛋 * IDF鸡蛋
总结一下: 如果我们想在一篇文档中判断某一个词是否重要, 我们希望这个词在该文件中尽可能的大, 所以为(正向)频率
如果我们希望判断一个词在整个文本中是否重要, 我们希望这个词在这整个文本尽可能的集中, 即 逆向频率尽可能的大
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。