TF-IDF算法简述_tf-idf和齐夫定律

作者：知新_RL | 2024-07-25 06:30:22

踩

tf-idf和齐夫定律

TF-IDF（Term Frequency-Inverse Document Frequency）算法是信息检索技术中最重要也是最基础的算法之一，同时也常常在推荐系统中用于计算对象间的相似度。

TF-IDF算法用于衡量文档中各词汇的频繁程度，众所周知，出现越频繁的词越（可能）贴近文档的主题，利用TF-IDF算法，就可以帮助人们抓住文章的主题。TF-IDF算法的t基本思想是某个词（term）在某一篇文档（document）中出现的频率越高，同时在其它文档中出现的频率越低，那么值越大，越能表现文档的主题。这样计算的是因为仅仅凭借某个term在特定document出现的频率高就判断该主题是不充分的。这是因为在文章中，一般虚词（如the,a,an等）出现的频率是最高的（英文中出现频率最高的词汇是the，齐夫定律描述了英语中词汇频率的变化规律），所以还与该term在所有文档中出现的频率相关，即IDF，TF-IDF规定，term在所有document中出现的次数越多，IDF的值越小。
TF-IDF算法的公示为：TF*IDF。TF表示的是某个term与特定document的相关性，它的值是该term在特定document中出现的次数除以该document中出现的所有term的次数。IDF表示的是term与所有document的相关

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/878812