当前位置:   article > 正文

基于IMDb数据集的情感分析(TF-IDF与机器学习实现)_imdb数据集 tfidf

imdb数据集 tfidf

使用TF-IDF模型,结合机器学习进行情感分类,能取得较好的准确率。

本文的JupyterNotebook可参考这里

本文介绍NLP的通用方法TF-IDF的使用,并且分类准确率能达到0.95,进入kaggle排行榜的前100。

TF-IDF

TF-IDF(词频-逆文档频率)算法是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

其计算方法比较简单,这里就不赘述了。本文使用sklearn中的TfidfVectorizer进行处理。

from sklearn.feature_extraction.text import TfidfVectorizer as TFIV
tfv = TFIV(min_df=3,  max_features=
  • 1
  • 2
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/爱喝兽奶帝天荒/article/detail/870539
推荐阅读
相关标签
  

闽ICP备14008679号