当前位置:   article > 正文

python机器学习之朴素贝叶斯分类器_python机器学习入门1.5《使用朴素贝叶斯分类器对20类新闻分类》

python机器学习入门1.5《使用朴素贝叶斯分类器对20类新闻分类》

朴素贝叶斯通常是用于文本分类,通过计算每种类别的概率,其中寻找最大的概率所在的类别,即为结果分类。

朴素的意思为假定文本属性之间是相互独立的。

有时需要用到拉布拉斯平滑系数。

优点:对缺失值不敏感,速度快。

缺点:由于假设样本特征相互独立,所以样本属性关联强的时候,分类效果不好。

下面以20条新闻为例:

首先引入类

from sklearn.datasets import fetch_20newsgroups
  1. from sklearn.feature_extraction.text import TfidfVectorizer
  2. from sklearn.naive_bayes import MultinomialNB

然后定义函数:

  1. def nb_news():
  2. #朴素贝叶斯对新闻进行分类
  3. #1 获取数据
  4. news=fetch_20newsgroups(subset="all")
  5. # 2.划分数据集
  6. x_train,x_test,y_train,y_test=train_test_split(news.data,news.target)
  7. # 3.特征工程:tfidf
  8. transfer=TfidfVectorizer()
  9. x_train=transfer.fit_transform(x_train)
  10. x_test=transfer.transform(x_test) #此处若用fit_transform,会报维度不匹配的错误
  11. # 4.朴素贝叶斯
  12. estimator=MultinomialNB()
  13. estimator.fit(x_train,y_train)
  14. # 5.模型评估
  15. y_predict = estimator.predict(x_test)
  16. print("y_predict:\n", y_predict)
  17. print("直接比对真实值和预测值:\n", y_test == y_predict)
  18. # 2.计算准确率
  19. score = estimator.score(x_test, y_test)
  20. print("准确率为:\n", score)
  21. return None

结果为:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/869254
推荐阅读
相关标签
  

闽ICP备14008679号