赞
踩
TF-IDF(Term Frequency-Inverse Document Frequency)算法是信息检索技术中最重要也是最基础的算法之一,同时也常常在推荐系统中用于计算对象间的相似度。
TF-IDF算法用于衡量文档中各词汇的频繁程度,众所周知,出现越频繁的词越(可能)贴近文档的主题,利用TF-IDF算法,就可以帮助人们抓住文章的主题。TF-IDF算法的t基本思想是某个词(term)在某一篇文档(document)中出现的频率越高,同时在其它文档中出现的频率越低,那么值越大,越能表现文档的主题。这样计算的是因为仅仅凭借某个term在特定document出现的频率高就判断该主题是不充分的。这是因为在文章中,一般虚词(如the,a,an等)出现的频率是最高的(英文中出现频率最高的词汇是the,齐夫定律描述了英语中词汇频率的变化规律),所以还与该term在所有文档中出现的频率相关,即IDF,TF-IDF规定,term在所有document中出现的次数越多,IDF的值越小。
TF-IDF算法的公示为:TF*IDF。TF表示的是某个term与特定document的相关性,它的值是该term在特定document中出现的次数除以该document中出现的所有term的次数。IDF表示的是term与所有document的相关
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。