赞
踩
简介
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
理论
如果某个词或短语在一篇文章中出现的频率高,并且在文档集合中出现频率低,则认为此词或者短语具有很好的类别区分能力。
适用场合
文本分类、基于向量空间模型的文本分类方法