当前位置:   article > 正文

文本特征提取方法——TF-IDF, LDA, Word2Vec_tf-idf方法与lda模型的区别

tf-idf方法与lda模型的区别

(一)TF-IDF

TF-IDF(term frequency-inverse document frequency)是一种信息检索和数据挖掘常用的加权技术。TF表示词频,IDF 表示逆文本频率,用以评估一个字词对于一个文件集或一个语料库中的一份文件的重要程度。字词的重要性随着在文件中出现的次数成正比,但随着在语料库中出现的频率成反比。

主要思想:某个词或短语在一篇文章中出现的频率TF越高,并在其他文章中很少出现,表示该词语或短语有很好的类别区分能力,适合用来分类。TF-IDF实际上是TF*IDF,IDF表示如果包含词条t的文档越少,n越小,IDF越大,词条t具有很好的类别区分能力,如果某类文档C中包含词条t的文档数是m.对区别文档最有意义的词语应该是那些在文档中出现频率高,而在整个文档集合的其他文档中出现频率少的词语,所以如果特征空间坐标系取TF词频作为测度,就可以体现同类文本的特点。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/850046
推荐阅读
相关标签
  

闽ICP备14008679号