当前位置:   article > 正文

TF-IDF算法简述_tf-idf和齐夫定律

tf-idf和齐夫定律

        TF-IDF(Term Frequency-Inverse Document Frequency)算法是信息检索技术中最重要也是最基础的算法之一,同时也常常在推荐系统中用于计算对象间的相似度。

        TF-IDF算法用于衡量文档中各词汇的频繁程度,众所周知,出现越频繁的词越(可能)贴近文档的主题,利用TF-IDF算法,就可以帮助人们抓住文章的主题。TF-IDF算法的t基本思想是某个词(term)在某一篇文档(document)中出现的频率越高,同时在其它文档中出现的频率越低,那么值越大,越能表现文档的主题。这样计算的是因为仅仅凭借某个term在特定document出现的频率高就判断该主题是不充分的。这是因为在文章中,一般虚词(如the,a,an等)出现的频率是最高的(英文中出现频率最高的词汇是the,齐夫定律描述了英语中词汇频率的变化规律),所以还与该term在所有文档中出现的频率相关,即IDF,TF-IDF规定,term在所有document中出现的次数越多,IDF的值越小。
TF-IDF算法的公示为:TF*IDF。TF表示的是某个term与特定document的相关性,它的值是该term在特定document中出现的次数除以该document中出现的所有term的次数。IDF表示的是
term与所有document的相关

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/878812
推荐阅读
相关标签
  

闽ICP备14008679号