当前位置:   article > 正文

CountVectorizer与TfidfVectorizer 对文本特征的特征抽取_握用tfidfvectorizer和countvectorizer的文档特征提取方法,运行各个模块直

握用tfidfvectorizer和countvectorizer的文档特征提取方法,运行各个模块直至看到

CountVectorizer: 只考虑每种词汇在该条训练文本中出现的频率

TfidfVectorizer :  除了考量每种词汇在该条训练文本中出现的频率,同时包含这个词汇的文本的条数的倒数.

对新闻文本数据使用CountVectorizer与TfidfVectorizer  抽取特征,使用朴素贝叶斯进行分类。

  1. # -*- coding:utf-8 -*-
  2. if __name__ == '__main__':
  3. print "hello"
  4. # 从sklearn.datasets里导入20类新闻文本数据抓取器。
  5. from sklearn.datasets import fetch_20newsgroups
  6. # 从互联网上即时下载新闻样本,subset='all'参数代表下载全部近2万条文本存储在变量news中。
  7. news = fetch_20newsgroups(subset='all',download_if_missing=False)
  8. # news = fetch_20newsgroups(subset='all')
  9. # 从sklearn.cross_validation导入train_test_split模块用于分割数据集。
  10. from sklearn.model_selection import train_test_split
  11. # 对news中的数据data进行分割,25%的文本用作测试集;75%作为训练集。
  12. X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=33)
  13. # 从sklearn.feature_extraction.text里导入CountVectorizer
  14. from sklearn.feature_extraction.text import CountVectorizer
  15. # 采用默认的配置对CountVectorizer进行初始化(默认配置不去除英文停用词),并且赋值给变量count_vec。
  16. count_vec = CountVectorizer()
  17. # 只使用词频统计的方式将原始训练和测试文本转化为特征向量。
  18. X_count_train = count_vec.fit_transform(X_train)
  19. X_count_test = count_vec.transform(X_test)
  20. # 从sklearn.naive_bayes里导入朴素贝叶斯分类器。
  21. from sklearn.naive_bayes import MultinomialNB
  22. # 使用默认的配置对分类器进行初始化。先验概率假设为多项式
  23. mnb_count = MultinomialNB()
  24. # 使用朴素贝叶斯分类器,对CountVectorizer(不去除停用词)后的训练样本进行参数学习。
  25. mnb_count.fit(X_count_train, y_train)
  26. # 输出模型准确性结果。
  27. print 'The accuracy of classifying 20newsgroups using Naive Bayes (CountVectorizer without filtering stopwords):', mnb_count.score(X_count_test, y_test)
  28. # 将分类预测的结果存储在变量y_count_predict中。
  29. y_count_predict = mnb_count.predict(X_count_test)
  30. # 从sklearn.metrics 导入 classification_report
  31. from sklearn.metrics import classification_report
  32. # 输出更加详细的其他评价分类性能的指标。
  33. print classification_report(y_test, y_count_predict, target_names = news.target_names)
  34. # 从sklearn.feature_extraction.text里分别导入TfidfVectorizer。
  35. from sklearn.feature_extraction.text import TfidfVectorizer
  36. # 采用默认的配置对TfidfVectorizer进行初始化(默认配置不去除英文停用词),并且赋值给变量tfidf_vec。
  37. tfidf_vec = TfidfVectorizer()
  38. # 使用tfidf的方式,将原始训练和测试文本转化为特征向量。
  39. X_tfidf_train = tfidf_vec.fit_transform(X_train)
  40. X_tfidf_test = tfidf_vec.transform(X_test)
  41. # 依然使用默认配置的朴素贝叶斯分类器,在相同的训练和测试数据上,对新的特征量化方式进行性能评估。
  42. mnb_tfidf = MultinomialNB()
  43. mnb_tfidf.fit(X_tfidf_train, y_train)
  44. print 'The accuracy of classifying 20newsgroups with Naive Bayes (TfidfVectorizer without filtering stopwords):', mnb_tfidf.score(
  45. X_tfidf_test, y_test)
  46. y_tfidf_predict = mnb_tfidf.predict(X_tfidf_test)
  47. print classification_report(y_test, y_tfidf_predict, target_names=news.target_names)

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/361192
推荐阅读
相关标签
  

闽ICP备14008679号