赞
踩
TF-IDF简介
TF(term frequency)意为词频,用来计算关键词w在文档D中出现的频率,计算公式如下:
其中count(w)为关键词w在目标文档(查询)中出现的次数,Di表示该文档中出现的词的总个数。当一个词在文档中出现次数越多,TF越大。
IDF(inverse document frequency)意为逆文档频率,用来表示关键词w在所有文档中出现的普遍程度,其计算公式如下:
N表示文档总个数,I(w,Di)用来衡量关键词w是否在第i个文档中出现,出现时取值为1,不出现时取值为0。由公式可知,IDF反应一个词的普遍程度-当一个词越普遍(即大量文档中都包含这个词时),IDF值越小。反之,IDF越大。
当一个词在所有文档中都未出现时,上式的分母为0,因此需要对公式进行平滑操作:
关键词w的TF-IDF值为上面两个值之积,即:
从上述定义可知:
1、当一个词在文档中频率越高并且新鲜度高(即普遍度低),其TF-IDF越大。
2、TF-IDF兼顾词频和新鲜度,会过滤掉一些常见词,保存能够给目标文档提供更多信息的重要词。
TextRank简介
TextRank主要思想:通过词与词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank就可以得到关键词。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。