TF-IDF文本表示方法与词云图_tfidf

作者：IT小白 | 2024-03-24 09:42:11

踩

tfidf

跟我一起机器学习系列文章将首发于公众号：月来客栈，欢迎搜索关注！

在前面的一篇文章中，我们介绍了两种基本的用于文本表示的词袋模型表示方法，两者之间的唯一区别就是一个考虑的词频而另外一个没有。下面我们再介绍另外一种应用更为常见和广泛的词袋模型表示方式——TFIDF表示方法。之所以陆续的会出现不同的向量化表示形式，其最终目的都只有一个，即尽可能准确的对原始文本进行表示。

1 TF-IDF

TF-IDF为词频-逆文档频率（term frequence - inverse document frequence） 的简称。首先需要明白的是TF-IDF实际上是TF与IDF两者的乘积。之所以出现TF-IDF的原因在于，通常来说在一个样本中一次词出现的频率越高，其重要性应该对应越高，即考虑到词频对文本向量的影响；但是如果仅仅只是考虑到这一个因素则同样会带来一个新的弊端，即有的词不只是在某个样本中出现的频率高，其实它在整个数据集中的出现频率都很高，而这样的词往往也是没有意义的。因此，TF-IDF的做法是通过词的逆文档频率来加以修正调整。

1.1 计算步骤

词频

$\begin{aligned} T F = 某个词在文章中的出现次数 \end{aligned}$ $\begin{aligned} TF=\text{某个词在文章中的出现次数} \end{aligned}$ $T F = 某个词在文章中的出现次数$
考虑到每个样本有长短之分，我们对"词频"进行一个标准化处理：
$\begin{aligned} T F = \frac{某个词在样本中的出现次数}{该样本的总词数} \\ 或者 \\ T F = \frac{某个词在样本中的出现次数}{该样本中出现最多词的次数} \end{aligned}$

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/301504