赞
踩
TF: Term Frequency 词频(当前文章中词语的频率)
IDF: Inverse Document Frequency 逆文本频率指数 (在一个包含许多文档的文档库中,某个词语是否常见,IDF值越大越不常见)
(1)
假如一片文章有 1000 个词,
那么:
(2)
有一个文件库,它是用来求IDF用的,文件库包含了5000个文档
在这5000个文档中,
IDF =log(文档库中文档总数 / (包含该词文档数+1) )
加1是为了防止分母为0
(3)
如果某个词比较少见(IDF值较高),但是它在这篇文章中多次出现(TF值较高),那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。
从上面计算可以看出 TF-IDF(“梦想”)的值较高,可以把"梦想"作为这篇文章的关键词
部分内容摘自:https://blog.csdn.net/zhaomengszu/article/details/81452907
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。