当前位置:   article > 正文

词频计算方法(TF/IDF)_计算词频

计算词频

文本分类中,如何定义一个词出现的频率呢?如果仅仅用这个词在文章中出现的次数来定义词频,那么某个词在长文件中的词频一般会大于这个词在短文件中的词频。不能说这个词就是长文件一个好的标识词,为了避免这种情况可以使用TF来表示,TF=某词出现次数/总词数。还有像汉语中“的”、“地”、“我们”等这些词,在文章中出现的频率很高,但是对文章分类的作用几乎没有,所以如果只用TF来定义词频,无法避免此类问题,可以再定义IDF,IDF=lg(总文章数/出现某个词的文章数)。这样两种情况都考虑,取它们的乘积(词频=TF*IDF)作为某个词的词频效果就会很好。

总结:
例如:有1000篇文章,其中含有Android这个词的文章有10篇,在有1625个词的一篇文章中Android出现了26次,则Android这个词在这篇文章中的词频=
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/723285
推荐阅读
相关标签
  

闽ICP备14008679号