当前位置:   article > 正文

Python 实现朴素贝叶斯代码演示_1、伯努利朴素贝叶斯是假定样本特征的条件概率分布服从二项分布,即“0-1分布”。

1、伯努利朴素贝叶斯是假定样本特征的条件概率分布服从二项分布,即“0-1分布”。

朴素贝叶斯可以细分为三种方法:分别是伯努利朴素贝叶斯、高斯朴素贝叶斯和多项式朴素贝叶斯。下文就这三种方法进行详细讲解和演示。

目录

一、伯努利朴素贝叶斯方法

1.1 例子解答

1.1.1 代码:

1.1.2 结果: 

 二、高斯朴素贝叶斯方法

2.1 解题

2.1.1 代码:

2.1.2 结果:

2.2 检查高斯朴素贝叶斯的正确率

2.2.1 代码:

2.2.2 结果: 

 三、多项式朴素贝叶斯方法

3.1 多项式朴素贝叶斯实现新闻文本分类

3.1.1 代码

3.1.2 结果

 3.2 检测正确率

3.2.1 代码

3.2.2结果 


一、伯努利朴素贝叶斯方法

伯努利朴素贝叶斯是假定样本特征的条件概率分布服从二项分布,即“0-1分布”。

1.1 例子解答

例如利用伯努利朴素贝叶斯预测天气会不会下雨:

 其中有雨用1标识,无雨用0标识。

各种属性则是用1标识,否用0标识。一直上表的下雨情况为Y=[1,1,1,1,0,1,1,0]

问(无风,不潮湿,多云,不闷热)的情况是否下雨。

这里可以将预测数据设为x_pre=[0,0,1,1]

1.1.1 代码:

  1. import numpy as np
  2. x = np.array([[0,1,0,1],[1,1,1,1],[1,1,1,0],[0,1,1,0],[0,1,0,0],[0,1,0,1],
  3. [1,1,0,1],[1,0,0,1],[1,1,0,1],[0,0,0,0]])
  4. y = np.array([1,1,1,1,0,1,0,1,1,0])
  5. from sklearn.naive_bayes import BernoulliNB
  6. bnb = BernoulliNB()
  7. bnb.fit(x,y)
  8. day_pre=[[0,0,1,0]]
  9. pre = bnb.predict(day_pre)
  10. print("预测结果如下\n:",'*'*50)
  11. print('结果为:',pre)
  12. print('*'*50)
  13. #进一步查看概率分布
  14. pre_pro = bnb.predict_proba(day_pre)
  15. print("不下雨的概率为:",pre_pro[0][0],"\n下雨的概率为:",pre_pro[0][1])

1.1.2 结果: 

 二、高斯朴素贝叶斯方法

高斯朴素贝叶斯分类器是假定样本特征符合高斯分布时常用的算法。高斯分布也称为正态分布。如果随机变量X服从一个数学期望μ、方差的正态分布。可以直接调用sklearn.native_bayes.GuassianNB().

2.1 解题

上述题用高斯朴素贝叶斯方法预测的结果如下:

2.1.1 代码:

  1. import numpy as np
  2. x = np.array([[0,1,0,1],[1,1,1,1],[1,1,1,0],[0,1,1,0],[0,1,0,0],[0,1,0,1],
  3. [1,1,0,1],[1,0,0,1],[1,1,0,1],[0,0,0,0]])
  4. y = np.array([1,1,1,1,0,1,0,1,1,0])
  5. # from sklearn.model_selection import train_test_split
  6. from sklearn.naive_bayes import GaussianNB
  7. gnb = GaussianNB()
  8. gnb.fit(x,y)
  9. day_pre=[[0,0,1,0]]
  10. pre = gnb.predict(day_pre)
  11. print("预测结果如下\n:",'*'*50)
  12. print('结果为:',pre)
  13. print('*'*50)
  14. #进一步查看概率分布
  15. pre_pro = gnb.predict_proba(day_pre)
  16. print("不下雨的概率为:",pre_pro[0][0],"\n下雨的概率为:",pre_pro[0][1])

2.1.2 结果:

2.2 检查高斯朴素贝叶斯的正确率

利用sklearn自带的数据集来展示高斯朴素贝叶斯来验证正确率:

2.2.1 代码:

  1. from sklearn.datasets import make_blobs
  2. from sklearn.model_selection import train_test_split
  3. from sklearn.naive_bayes import GaussianNB
  4. x,y = make_blobs(n_samples = 800,centers = 6,random_state = 6)
  5. x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25,random_state=33)
  6. gnb = GaussianNB()
  7. gnb.fit(x_train,y_train)
  8. print('-'*50)
  9. print('高斯朴素贝叶斯的正确率为:',gnb.score(x_test,y_test))
  10. print('-'*50)

2.2.2 结果: 

 三、多项式朴素贝叶斯方法

多项式朴素贝叶斯是假定样本特征符合多项式分布时常用的算法,把一个二项式公式推广至多种状态,就得到了多项分布。例如骰子。

3.1 多项式朴素贝叶斯实现新闻文本分类

以sklearn.datasets中的新闻文本数据集为例,展示朴素贝叶斯分类方法。

其中sklearn.dates中的fetch_20newsgroups数据集一共射击20个话题,进行预测分类。

3.1.1 代码

  1. #加载数据
  2. from sklearn.datasets import fetch_20newsgroups
  3. newsgroups = fetch_20newsgroups(subset='all')
  4. x = newsgroups.data
  5. y = newsgroups.target
  6. #查看目标
  7. print('目标变量:\n',newsgroups.target_names)
  8. #查看特征变量情况
  9. print('特征变量示例:\n',x[0])
  10. #查看特征变量目标
  11. print('特征变量目标:\n',y)
  12. from sklearn.model_selection import train_test_split
  13. x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=33)
  14. from sklearn.feature_extraction.text import CountVectorizer
  15. vec = CountVectorizer()
  16. x_vec_train = vec.fit_transform(x_train)
  17. x_vec_test = vec.transform(x_test)
  18. from sklearn.naive_bayes import MultinomialNB
  19. mnb = MultinomialNB()
  20. mnb.fit(x_vec_train,y_train)
  21. mnb_y_predict = mnb.predict(x_vec_test)
  22. from sklearn.metrics import classification_report
  23. print(classification_report(y_test,mnb_y_predict))

3.1.2 结果

 

 

 3.2 检测正确率

3.2.1 代码

  1. from sklearn.datasets import make_blobs
  2. import numpy as np
  3. #自带数据集
  4. x,y = make_blobs(n_samples=800,centers=6,random_state=6)
  5. from sklearn.model_selection import train_test_split
  6. x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.25,random_state=33)
  7. from sklearn.preprocessing import MinMaxScaler
  8. scaler = MinMaxScaler()
  9. scaler.fit(x_train)
  10. x_train_s = scaler.transform(x_train)
  11. x_test_s = scaler.transform(x_test)
  12. from sklearn.naive_bayes import MultinomialNB
  13. mnb = MultinomialNB()
  14. mnb.fit(x_train_s,y_train)
  15. print('*'*50)
  16. print('多项式朴素贝叶斯法准确率:',mnb.score(x_test_s,y_test))
  17. print('*'*50)

3.2.2结果 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/679452
推荐阅读
相关标签
  

闽ICP备14008679号