赞
踩
CF:文档集的频率,是指词在文档集中出现的次数
DF:文档频率,是指出现词的文档数
IDF:逆文档频率,idf = log(N/(1+df)),N为所有文档的数目,为了兼容df=0情况,将分母弄成1+df。
TF:词在文档中的频率
TF-IDF:TF-IDF= TF*IDF
为了讲解文本数据的向量化,假设我们有4个文本,所有文本一共有6个不同的词,如下所示。
doc1 | iphone | guuci | huawei | watch | huawei | |
doc2 | huawei | watch | iphone | watch | iphone | gucci |
doc3 | skirt | skirt | skirt | flower | ||
doc4 | watch | watch | huawei |
iphone | watch | gucci | huawei | skirt | flower | |
doc1 TF | 1/5 | 1/5 | 1/5 | 2/5 | 0 | 0 |
doc2 TF | 2/6 | 2/6 | 1/6 | 1/6 | 0 | 0 |
doc3 TF | 0 | 0 | 0 | 0 | 3/4 | 1/4 |
doc4 TF | 0 | 2/3 | 0 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。