当前位置:   article > 正文

TF-IDF算法_tf-idf公式

tf-idf公式

TF-IDF算法可以分解为两部分:TF和IDF

一、TF算法

1.词频(term frequency,TF)
2.公式: T F = N i , j ∑ k N k , j TF =\frac {N_{i,j}}{ \sum_{k}N_{k,j}} TF=kNk,jNi,j
3.解释:以上式子中分子是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。

二、IDF算法

1.逆向文件频率(inverse document frequency,IDF)
2.公式: I D F = l g ∣ D ∣ ∣ j : t i ∈ d j ∣ IDF =lg \frac {|D|}{|j:t_i ∈d_j|} IDF=lgj:tidjD
3.解释:逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/802099
推荐阅读
相关标签
  

闽ICP备14008679号