当前位置:   article > 正文

TF-IDF和TextRank_为了计算的方便,我们定义第1个单词的tf为t fi=w。其中ni表示第1个单词在所有文章

为了计算的方便,我们定义第1个单词的tf为t fi=w。其中ni表示第1个单词在所有文章

TF-IDF简介

TF(term frequency)意为词频,用来计算关键词w在文档D中出现的频率,计算公式如下:

TF=\frac{count(w)}{\left | Di \right |}

其中count(w)为关键词w在目标文档(查询)中出现的次数,Di表示该文档中出现的词的总个数。当一个词在文档中出现次数越多,TF越大。

IDF(inverse document frequency)意为逆文档频率,用来表示关键词w在所有文档中出现的普遍程度,其计算公式如下:

log\frac{N}{\sum_{i=1}^{N}I(w,Di)}

N表示文档总个数,I(w,Di)用来衡量关键词w是否在第i个文档中出现,出现时取值为1,不出现时取值为0。由公式可知,IDF反应一个词的普遍程度-当一个词越普遍(即大量文档中都包含这个词时),IDF值越小。反之,IDF越大。

当一个词在所有文档中都未出现时,上式的分母为0,因此需要对公式进行平滑操作:

IDF=log\frac{N}{1+\sum_{i=1}^{N}I(w,Di)}

关键词w的TF-IDF值为上面两个值之积,即:

TF-IDF=TF_{w,Di}*IDF_{w}

从上述定义可知:

1、当一个词在文档中频率越高并且新鲜度高(即普遍度低),其TF-IDF越大。

2、TF-IDF兼顾词频和新鲜度,会过滤掉一些常见词,保存能够给目标文档提供更多信息的重要词。

TextRank简介

TextRank主要思想:通过词与词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank就可以得到关键词。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/802098
推荐阅读
相关标签
  

闽ICP备14008679号