当前位置:   article > 正文

【机器学习】文本数据的向量化(TF-IDF)---样本集实例讲解+python实现_文本向量化公式

文本向量化公式

1.文本数据的向量化

1.1名词解释

CF:文档集的频率,是指词在文档集中出现的次数

DF:文档频率,是指出现词的文档数

IDF:逆文档频率,idf = log(N/(1+df)),N为所有文档的数目,为了兼容df=0情况,将分母弄成1+df。

TF:词在文档中的频率

TF-IDF:TF-IDF= TF*IDF

1.2文本数据样本集

为了讲解文本数据的向量化,假设我们有4个文本,所有文本一共有6个不同的词,如下所示。

             
doc1 iphone   guuci huawei watch huawei
doc2 huawei watch iphone watch iphone gucci
doc3 skirt skirt   skirt flower  
doc4 watch   watch   huawei  

1.3计算汇总

  iphone watch gucci huawei skirt flower
doc1  TF 1/5 1/5 1/5 2/5 0 0
doc2 TF 2/6 2/6 1/6 1/6 0 0
doc3 TF 0 0 0 0 3/4 1/4
doc4 TF 0 2/3 0
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/710426
推荐阅读
相关标签
  

闽ICP备14008679号