当前位置:   article > 正文

Task05基于鸢尾花数据集的贝叶斯分类算法实践_iris鸢尾花数据集贝叶斯分类

iris鸢尾花数据集贝叶斯分类

Task05 基于鸢尾花数据集的贝叶斯分类算法实践

一、学习内容概括

学习资料:

1.阿里云天池-AI训练营机器学习:https://tianchi.aliyun.com/specials/promotion/aicampml?invite_channel=1&accounttraceid=7df048c2ce194081b514fd2c8e9a3f00cqmm

2.sklearnAPI:https://scikit-learn.org/stable/modules/classes.html

二、具体学习内容

朴素贝叶斯算法原理:

由上述原理,分析出朴素贝叶斯解决什么问题:

样本数据集D和对应的特征属性集X可以合二为一形成一个二维数组(样本数n_samples,特征数n_features),我们把这个二维数组称为数据集。原理中提到的类变量Y,我们也形成一个一维数组(样本数n_samples,),我们把这个一维数组称为标签集。从整个数据集中可以再划分出训练集和测试集,标签集也相应划分出训练标签集和测试标签集。

我们先输入训练集和对应的标签集进行学习,通过学习得到朴素贝叶斯模型。基于模型,输入某个样本X,就可以得到相应的标签预测概率值集P(Y|X)(X条件下Y的概率),这里为什么说是一个值集,因为Y中有很多类别,针对一个样本,属于什么类别,每种类别都有其预测概率值P(Yi|X),有的值大有的值小,其实这个值集在代码中表示就是一个(1,标签数)型的二维数组(当然这是针对一个样本而言,多个样本就是(样本数,标签数))。通过预测结果,我们可以直接看出P(Y|X)中最大的那个概率值,这个概率值对应的类别就是我们想知道的类别Yi。这就是朴素贝叶斯解决的问题。另外,我们把P(Y|X)记为Y的后验概率。

说到这里还是比较抽象,下面从代码中一步步解读。

代码流程:

  • Step1: 库函数导入
  • Step2: 数据导入&分析
  • Step3: 模型训练
  • Step4: 模型预测

1 库函数导入

  1. import warnings
  2. warnings.filterwarnings('ignore')
  3. import numpy as np
  4. # 加载莺尾花数据集
  5. from sklearn import datasets
  6. # 导入高斯朴素贝叶斯分类器
  7. from sklearn.naive_bayes import GaussianNB
  8. from sklearn.model_selection import train_test_split

1.1 忽略警告信息

Q:在python中,代码可以正常运行但是会提示警告。

A:调用warnings模块中警告过滤器filterwarnings()函数忽略警告消息。

1.2 sklearn.naive_bayes:朴素贝叶斯。其中naive_bayes.GaussianNB(* [,先验,...]):高斯朴素贝叶斯(GaussianNB)

https://scikit-learn.org/stable/modules/generated/sklearn.naive_bayes.GaussianNB.html#sklearn.naive_bayes.GaussianNB

1.3 sklearn.model_selection:选型。model_selection.train_test_split(*数组,...)用于数据集的分割,分割成训练集和测试集

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split

2 数据导入&分析

  1. ## return_X_y默认为False,如果为True,表示返回的是(data,target)
  2. ## X=data是(样本数,特征数)数组;y=target是(1,标签数)数组
  3. X, y = datasets.load_iris(return_X_y=True)
  4. ## X,y是待拆分的数据集;test_size是指将0.2比例的数据集拿出来作为测试集;
  5. ## random_state默认值为None,不设置则每次复现代码时都会随机分割,如果设置为一个值,那复现代码时会是与本次一样的分割结果
  6. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

这里可以看一下各个数据的形状:X(150,4)、y(150,)、X_train(120,4)、X_test(30,4)、y_train(120,)、y_test(30,4)。看得出来150*0.2=30。这里的X就是数据集,y就是标签集。X_train和X_test是从X中划分出的训练集、测试集;y_train、y_test是从y中划分出的与X相对应的标签集。

通过分析发现训练数据是数值类型的数据,这里假设每个特征服从高斯分布,因此我们选择高斯朴素贝叶斯来进行分类计算。高斯朴素贝叶斯假设每个特征都服从高斯分布,我们把一个随机变量X服从数学期望为μ,方差为σ^2的数据分布称为高斯分布。对于每个特征我们一般使用平均值来估计μ和使用所有特征的方差估计σ^2。

3 模型训练

  1. # 使用高斯朴素贝叶斯进行计算
  2. ## var_smoothing:float,默认值= 1e-9。表示所有特征的最大方差部分,已添加到方差中以提高计算稳定性。
  3. ## var_smoothing是sklearn0.20版中的新功能
  4. clf = GaussianNB(var_smoothing=1e-8)
  5. clf.fit(X_train, y_train)

我们根据X_train和y_train训练出高斯朴素贝叶斯模型。

通过sklearn.__version__检查sklearn版本,发现是“0.19”,var_smoothing是sklearn0.20版中的新功能,所以var_smoothing不能用。因此我们在控制台更新sklearn版本:pip install scikit-learn==0.23 

4 模型预测

  1. # 评估
  2. ## GaussianNB.predict(X)对测试向量X进行分类,返回X的预测目标值。
  3. ## 输入(n_samples, n_features)型数组。输出(n_samples,)型数组。
  4. ## X_test.shape(30,4),y_pred.shape(30,)
  5. y_pred = clf.predict(X_test)
  6. print(y_pred.shape[0],"个预测值:",y_pred)
  7. ## 测试集标签值y_test与估计值y_pred比较,共30个测试样本。得到一个正确率acc
  8. acc = np.sum(y_test == y_pred) / X_test.shape[0]
  9. print("Test Acc : %.3f" % acc)

输出结果:

  1. 30 个预测值: [2 1 0 2 0 2 0 1 1 1 1 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0]
  2. Test Acc : 0.967

通过训练得到的模型,在测试集上表现不错,正确率达到96.7%。

基于训练好的模型,对X_test进行一个预测,与y_test对比来对模型进行一个评估。

  1. # 预测
  2. ## GaussianNB.predict_proba(X)对测试向量X的概率估计。输入、输出都是(n_samples, n_features)型数组,
  3. ## X_test[:1]数组切片,只取一行样本
  4. y_proba = clf.predict_proba(X_test[:1])
  5. print("\n测试样本",X_test[:1],"的预测类别为:",clf.predict(X_test[:1]))
  6. print("\n测试样本",X_test[:1],"的预测概率为:\n",y_proba)

 输出结果:

  1. 测试样本 [[5.8 2.8 5.1 2.4]] 的预测类别为: [2]
  2. 测试样本 [[5.8 2.8 5.1 2.4]] 的预测概率为:
  3. [[1.63542393e-232 2.18880483e-006 9.99997811e-001]]

输入一个样本,不光可以根据predict()函数直接得到其预测类别,还可以根据predict_proba()函数看到针对每一种类别/标签,预测的概率都是多少,几个预测概率值相比较,最大的那个预测值9.99997811e-001对应的类别[2]就是我们想要的类别,也就是predict()函数直接预测到的那个。

重复一遍朴素贝叶斯的功能,就是输入样本,根据学习好的模型进行预测,预测出样本属于几种类别的概率,其中,几种类别预测概率值中最大的那个对应的类别就是我们想要的类别Yi。也就是说事件X最有可能的结果是Yi。

从上述例子中的预测结果中,我们可以看到类别2对应的后验概率值最大,所以我们认为类别2是最优的结果。

三、学习总结

sklearn对朴素贝叶斯算法进行了封装,我们就像在使用一个黑盒子。这个例子只是展示了贝叶斯算法的使用,并没有展现算法的具体细节。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/340791
推荐阅读
相关标签
  

闽ICP备14008679号