当前位置:   article > 正文

spark 类别特征_Spark机器学习1:朴素贝叶斯分类

spark 朴素贝叶斯分类

分类

每个人每天都会进行很多次的分类操作。比如,当你看到一个陌生人,你的大脑中的分类器就会根据TA的体貌特征、衣着举止,判断出TA是男是女,是穷是富等等。这就是分类操作。

其中,男人、女人、穷人、富人,这些是类别;那个陌生人,是个待分类项;把一个待分类项映射到一个类别的映射规则,就是一个分类器。

分类算法的任务就是构造出分类器。

贝叶斯定理

贝叶斯定理解决的是这样一个问题:已知在事件B发生的条件下,事件A的发生概率P(A|B),怎样得到事件A发生的条件下,事件B的发生概率 P(B|A)?贝叶斯定理为我们打通了从 P(A|B) 到 P(B|A) 的道路。

P(B|A) = P(A|B) × P(B) / P(A)

举例说明,假设已经有了100个 email,其中:垃圾邮件占比60%,即 P(Spam) = 0.680%的垃圾邮件包含关键字“buy”,即 P(Buy|Spam) = 0.8

20%的垃圾邮件不包含关键字“buy”正常邮件占比40%,即 P(NotSpam) = 0.410%的正常邮件包含关键字“buy”,即 P(Buy|NotSpam) = 0.1

90%的正常邮件不包含关键字“buy”

现在,第101个 email 进来了,它包含关键字“buy”,那么它是垃圾邮件的概率 P(Spam|Buy) 是多少?

P(Spam|Buy) = P(Buy|Spam) × P(Spam) / P(Buy)

P(Buy) = P(Buy|Spam) × P(Spam) 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/564559
推荐阅读
相关标签
  

闽ICP备14008679号