当前位置:   article > 正文

文本分析系列——词语权重算法:TF-IDF算法_对txt文件批量tfidf分析

对txt文件批量tfidf分析

简介

     TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

  • 词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率;
  • 反文档频率(inverse document frequency,IDF),即某一个给定词语在文档集合中出现的次数与文档总数的商;

理论

如果某个词或短语在一篇文章中出现的频率高,并且在文档集合中出现频率低,则认为此词或者短语具有很好的类别区分能力。

 

适用场合

文本分类、基于向量空间模型的文本分类方法

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/743977
推荐阅读
相关标签
  

闽ICP备14008679号