赞
踩
朴素贝叶斯通常是用于文本分类,通过计算每种类别的概率,其中寻找最大的概率所在的类别,即为结果分类。
朴素的意思为假定文本属性之间是相互独立的。
有时需要用到拉布拉斯平滑系数。
优点:对缺失值不敏感,速度快。
缺点:由于假设样本特征相互独立,所以样本属性关联强的时候,分类效果不好。
下面以20条新闻为例:
首先引入类
from sklearn.datasets import fetch_20newsgroups
- from sklearn.feature_extraction.text import TfidfVectorizer
- from sklearn.naive_bayes import MultinomialNB
然后定义函数:
def nb_news(): #朴素贝叶斯对新闻进行分类 #1 获取数据 news=fetch_20newsgroups(subset="all") # 2.划分数据集 x_train,x_test,y_train,y_test=train_test_split(news.data,news.target) # 3.特征工程:tfidf transfer=TfidfVectorizer() x_train=transfer.fit_transform(x_train) x_test=transfer.transform(x_test) #此处若用fit_transform,会报维度不匹配的错误 # 4.朴素贝叶斯 estimator=MultinomialNB() estimator.fit(x_train,y_train) # 5.模型评估 y_predict = estimator.predict(x_test) print("y_predict:\n", y_predict) print("直接比对真实值和预测值:\n", y_test == y_predict) # 2.计算准确率 score = estimator.score(x_test, y_test) print("准确率为:\n", score) return None
结果为:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。