赞
踩
TF-IDF算法可以分解为两部分:TF和IDF
1.词频(term frequency,TF)
2.公式:
T
F
=
N
i
,
j
∑
k
N
k
,
j
TF =\frac {N_{i,j}}{ \sum_{k}N_{k,j}}
TF=∑kNk,jNi,j
3.解释:以上式子中分子是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。
1.逆向文件频率(inverse document frequency,IDF)
2.公式:
I
D
F
=
l
g
∣
D
∣
∣
j
:
t
i
∈
d
j
∣
IDF =lg \frac {|D|}{|j:t_i ∈d_j|}
IDF=lg∣j:ti∈dj∣∣D∣
3.解释:逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取以10为底的对数得到
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。