当前位置:   article > 正文

朴素贝叶斯分类实验(垃圾邮件分类以及垃圾短信过滤数据集)_垃圾邮件数据集

垃圾邮件数据集

贝叶斯公式

先验概率

P ( c j ) P(c_j) P(cj)代表未有训练模型之前,根据历史数据/经验估算 c j c_j cj拥有的初始概率。 P ( c j ) P(c_j) P(cj)常称为 c j c_j cj的先验概率(prior probability),它反映了 c j c_j cj的概率分布,该分布独立于样本。
公式如下所示:
P ( c j ) = ∣ c j ∣ ∣ D ∣ P(c_j)=\frac{|c_j|}{|D|} P(cj)=Dcj
∣ c j ∣ |c_j| cj表示样例中属于 c j c_j cj的样例数,|D|表示总样例数。

后验概率

在给定数据样本x时 c j c_j cj成立的概率 P ( c j ∣ x ) P(c_j|x) P(cjx)称为后验概率(posterior probability),因为它反映了看到数据样本x后 c j c_j cj成立的置信度。后验概率是观测到x后对结果y的估计,大部分机器学习模型尝试得到后验概率。

贝叶斯定理

已知两个独立事件A和B,事件B发生的前提下,事件A发生的概率可以表示为 P ( A ∣ B ) P(A|B) P(AB),求解 P ( A ∣ B ) P(A|B) P(AB)的公式如下所示:

P ( A ∣ B ) = P ( A , B ) P ( B ) P(A|B)=\frac{P(A,B)}{P(B)} P(AB)=P(B)P(A,B)

=> P ( A , B ) = P ( B ) ∗ P ( A ∣ B ) = P ( A ) ∗ P ( B ∣ A ) P(A,B)=P(B)*P(A|B)=P(A)*P(B|A) P(A,B)=P(B)P(AB)=P(A)P(BA)

=> P ( A ∣ B ) = P ( A

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/730964
推荐阅读
相关标签
  

闽ICP备14008679号