赞
踩
跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎搜索关注!
在前面的一篇文章中,我们介绍了两种基本的用于文本表示的词袋模型表示方法,两者之间的唯一区别就是一个考虑的词频而另外一个没有。下面我们再介绍另外一种应用更为常见和广泛的词袋模型表示方式——TFIDF表示方法。之所以陆续的会出现不同的向量化表示形式,其最终目的都只有一个,即尽可能准确的对原始文本进行表示。
TF-IDF为词频-逆文档频率(term frequence - inverse document frequence) 的简称。首先需要明白的是TF-IDF实际上是TF与IDF两者的乘积。之所以出现TF-IDF的原因在于,通常来说在一个样本中一次词出现的频率越高,其重要性应该对应越高,即考虑到词频对文本向量的影响;但是如果仅仅只是考虑到这一个因素则同样会带来一个新的弊端,即有的词不只是在某个样本中出现的频率高,其实它在整个数据集中的出现频率都很高,而这样的词往往也是没有意义的。因此,TF-IDF的做法是通过词的逆文档频率来加以修正调整。
词频
T F = 某个词在文章中的出现次数
考虑到每个样本有长短之分,我们对"词频"进行一个标准化处理:
T F = 某个词在样本中的出现次数 该样本的总词数 或者 T F = 某个词在样本中的出现次数 该样本中出现最多词的次数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。