当前位置:   article > 正文

朴素贝叶斯算法(初学者实例入门)

朴素贝叶斯算法

《老饼讲解机器学习》--一个优质的机器学习网站icon-default.png?t=N7T8https://www.bbbdata.com/ml/text/17


目录

一、算法介绍

二、贝叶斯概率公式与判别函数

(一) 贝叶斯原理

(二) 属于各类别的概率计算公式

(三) 判别函数

(四) 概率的实际估算

三.例子讲解

四、模型存储

五、概念补充

(一) 贝叶斯原理、贝叶斯分类器与朴素贝叶斯的区别

(二)先验概率、后验概率、信息证据


本文讲解朴素贝叶斯模型的原理,使用例子,以及线上使用。

一、算法介绍

朴素贝叶斯是基于贝叶斯后验概率建立的模型,它用于解决分类问题。

它的主要思想是,通过历史数据,对每个类别建立经验概率公式,然后当新样本进来时,用各个类别的概率经验公式分别进行预测,最终,属于哪个类别的概率最大,就认为是哪个类别。

注:为了简化,我们不一定用概率公式p(x),也可以使用它的简化版g(x)替代它。


二、贝叶斯概率公式与判别函数

模型的关键是如何用历史数据构建类别的概率公式,贝叶斯原理恰好可以解决这个问题。

(一) 贝叶斯原理

贝叶斯原理为,在已知发生B条件下,发生A的概率为:


备注:贝叶斯原理可以理解为:  P(B)⋅P(A∣B) = P(B∣A)⋅P(A), 即: 发生B,且发生A = 发生A且发生B

(二) 属于各类别的概率计算公式

根据贝叶斯原理可以得到,在已知表现特征,属于类别 i 的概率则为:

如果各特征间是独立的,那特征的概率可以拆成累积形式,上式可以写成:

(三) 判别函数

因为每个分母一样,所以我们最终每个类别的决策器只取上式的分子即可,如下

此时,G代表的就不再是概率,而是判别值,称Gi为第i类别的判别函数。

(四) 概率的实际估算

上式各个P的计算用历史样本估算,如下

P(表现为特征Xk|已知属于类别 i)  = 类别 i 中特征k为 x_k的样本个数/ 类别 i 样本个数
P(属于类别 i ) =  类 i 在总本样中的占比
P(表现为特征X_k) =  特征k等于x_k的占比


备注:
(1) 连续变量需要离散化成组别
(2) 如果我们使用G判别函数,则不需要计算P(特征Xk) 


三.例子讲解

历史身高、体重与性别的历史数据:
现在来了个身高分组为3,体重分组为2的,需要判断该样本的类别。

模型判别流程如下:
1、估算各类别下特征表现的概率

P(身高=3|已知属于男) = 男样本中身高分组为3的个数 / 男样本个数 = 1/3   
P(体重=2|已知属于男) = 男样本中体重分组为2的个数 / 男样本个数 = 1/3
P(身高=3|已知属于女) = 女样本中身高分组为3的个数 / 女样本个数 =  1/4 
P(体重=2|已知属于女) = 女样本中体重分组为2的个数 / 女样本个数 = 2/4  


2、估算属于各类别的先验概率(即类别占比)
P(属于男) =3/7
P(属于女) = 4/7


3、 估算特征表现概率(即特征占比)
P(身高=3) = 身高为分组3的占比 =2/7
P(体重=2) = 体重为分组2的占比 = 3/7

4、计算样本属于各类别的概率值(或判别值)
   P(属于男样本 |已知身高=3,体重=2)
= P(身高=3|已知属于男)*P(体重=2|已知属于男) *P(属于男) /[ P(身高=3)*P(体重=2) ]

= \dfrac{ \frac{1}{3}*\frac{1}{3}*\frac{3}{7}}{ \frac{2}{7}*\frac{3}{7}}  


   P(属于女样本 |已知身高=3,体重=2)
= P(身高=3|已知属于女)*P(体重=2|已知属于女) *P(属于女) /[ P(身高=3)*P(体重=2) ]

= \dfrac{ \frac{1}{4}*\frac{2}{4}*\frac{4}{7}}{ \frac{2}{7}*\frac{3}{7}} = \frac{7}{12}

5、结论
是男的概率为7/18,是女的概率为7/12,由此,判断样本属于女。

备注:特征占比在实际计算中不需计算,因为最后是比较大小,分母不必计算。


四、模型存储

实际应用中,我们不会实时计算各个P,而是预存储好P,使用时直接调用。

这里以使用判别函数G举例,则需要存储以下两个数据:

(1) 历史样本中,属于该类别的概率 
(2) 历史样本中,特征表现概率表

具体例子,以k个类别,X含两个特征x1,x2为例,则需要存储:

(1)类别概率表

(2)各个特征概率表
共两个特征的概率表:


PASS:也可以存成以变量名-类别名-组别为主键的竖表,然后通过键值查询各个特征对应的P值,如下:

当进来一个特征[x1,x2]时,按G公式计算各个类别的判别值,在计算Gi时,按每个特征的组别,去表中查询属于i类的概率,最终代入Gi即可。


五、概念补充

(一) 贝叶斯原理、贝叶斯分类器与朴素贝叶斯的区别

1、贝叶斯原理:指的是贝叶斯的后验公式。
2、贝叶斯分类器:指用贝叶斯后验公式建立的分类器。
3、朴素贝叶斯:在贝叶斯分类器的基础上,添加了“变量间独立”的假设条件。

(二)先验概率、后验概率、信息证据

为方便查看,再次贴上贝叶斯公式:

(1) 先验概率

先验概率是指,事情未发生,利用以往经验,对未来预测。例如,P(属于类别i) 就是先验概率,利用之前的类别信息,估算新样本所属类别的概率。

(2) 后验概率

后验概率是指,事情已经发生,执果寻因,用结果倒推原因的概率。例如,病人已病,在咳嗽,求病人咳嗽是由风寒引起的概率。这就是后验概率。 P(属于类别i|已知表现为x特征)则是后验概率。

(3)信息证据

很多信息我们往往不能直接观察到(例如本例中的类别信息),但我们可以观察到其它一些关联信息(本例中的特征表现),如果不利用贝叶斯原理,我们只能简单的通过以往类别的概率,进行估算。

但是,使用贝叶斯原理后,我们可以根据关联信息(也称为证据),去补充、修正原本简单的类别先验概率。使新得到的概率 P(属于类别i|已知表现为X)更加准确,因为它比原先的简单先验概率添加了更多的信息证据(表现为X特征)。

在这里对这些概念的辨识,是因为后续还会需要用到,提前给个印象。


相关文章

《入门篇-环境搭建:anaconda安装》

《​​​​​​入门篇-模型:逻辑回归》

《入门篇-模型:决策树-CART》

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/538787
推荐阅读
相关标签
  

闽ICP备14008679号