当前位置:   article > 正文

TF-IDF文本表示方法与词云图_tfidf

tfidf

跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎搜索关注!

前面的一篇文章中,我们介绍了两种基本的用于文本表示的词袋模型表示方法,两者之间的唯一区别就是一个考虑的词频而另外一个没有。下面我们再介绍另外一种应用更为常见和广泛的词袋模型表示方式——TFIDF表示方法。之所以陆续的会出现不同的向量化表示形式,其最终目的都只有一个,即尽可能准确的对原始文本进行表示。

1 TF-IDF

TF-IDF为词频-逆文档频率(term frequence - inverse document frequence) 的简称。首先需要明白的是TF-IDF实际上是TF与IDF两者的乘积。之所以出现TF-IDF的原因在于,通常来说在一个样本中一次词出现的频率越高,其重要性应该对应越高,即考虑到词频对文本向量的影响;但是如果仅仅只是考虑到这一个因素则同样会带来一个新的弊端,即有的词不只是在某个样本中出现的频率高,其实它在整个数据集中的出现频率都很高,而这样的词往往也是没有意义的。因此,TF-IDF的做法是通过词的逆文档频率来加以修正调整。

1.1 计算步骤

  • 词频
    T F = 某个词在文章中的出现次数

    TF=某个词在文章中的出现次数
    TF=某个词在文章中的出现次数
    考虑到每个样本有长短之分,我们对"词频"进行一个标准化处理:
    T F = 某个词在样本中的出现次数 该样本的总词数 或者 T F = 某个词在样本中的出现次数 该样本中出现最多词的次数
    TF=某个词在样本中的出现次数该样本的总词数或者TF=某个词在样本中的出现次数该样本中出现最多词的次数
    TF=该样本的总词数某个词在样本中的出现次数或者

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/301504
推荐阅读
相关标签
  

闽ICP备14008679号