# Machine Learning — TF-IDF

作者：人工智能uu | 2024-08-06 12:11:11

踩

写在前面

在接触LSA的时候第一次接触了TF-IDF，隐隐约约感觉这个也是一个很重要的点，读了几篇论文似乎（~~我也不确定，太菜了~~ ）好像也许是用了这种方法，先学习吧可能学完就水落石出了呢

TF-IDF介绍

up主说很简单，辣就很简单吧。TF-IDF可以做的事情包括但不限于如下：
根据TF-IDF值，就可以建立关键词语和文档之间的日历图
在这里插入图片描述
也可以基于大量文本语料库查找与某个句子最相关的文本文档

还可以提取一段文本中的关键词语等等

TF-IDF简介

TF-IDF（term frequency - inverse document frequency）
wikipedia对其的定义为：TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。它是一种用于信息检索与文本挖掘的常用加权技术。

大白话来说就是：是词频的升级版，是一种评估词语重要性的指标
在这里插入图片描述

在词频分析中我们常常简单粗暴地认为，出现频率越高的词越重要，但是如 “的” “我们” “是” 这种，在每个文章中基本都大量出现，但并没有什么eggs 用…

所以TF-IDF做的就是，采用IDF(逆向文档频率）来控制约束词频(TF)，两者相乘即可得到TF-IDF
在这里插入图片描述
TF指的是词语在某个文档中出现的频率，算式如下：

IDF指的是总文档比上词语所在文档数取对数，这在LSA（上）博客里面已经有过此类介绍，在此就不多赘述。

TF-IDF的不足

频率越小单词越重要？
单词频率越大就越无用？
不能体现上下文信息。

LDA里面的 min_df 和 max_df 是什么意思

LDA在此次毕设里的运用还比较成功，之后有空详细解读一下其中的代码
在这里插入图片描述

max_df 主要作用是词语过滤，就像之前说过这个词语的重要性和它在多少个文档里出现是有关系的，比如一些助词或虚词。当其出现在所有文档中的频率大于50%时，我们就会将其过滤掉。
min_df 是一个整数，是指词语至少出现在10个文档里，否则就会被过滤掉
在这里插入图片描述
官网说明文档也显示，不论是 min_df 还是 max_df ，都可以用0-1的数或者一个整数来表示，但我们一般最大用概率来表示，最小用整数来表示。