赞
踩
分类
每个人每天都会进行很多次的分类操作。比如,当你看到一个陌生人,你的大脑中的分类器就会根据TA的体貌特征、衣着举止,判断出TA是男是女,是穷是富等等。这就是分类操作。
其中,男人、女人、穷人、富人,这些是类别;那个陌生人,是个待分类项;把一个待分类项映射到一个类别的映射规则,就是一个分类器。
分类算法的任务就是构造出分类器。
贝叶斯定理
贝叶斯定理解决的是这样一个问题:已知在事件B发生的条件下,事件A的发生概率P(A|B),怎样得到事件A发生的条件下,事件B的发生概率 P(B|A)?贝叶斯定理为我们打通了从 P(A|B) 到 P(B|A) 的道路。
P(B|A) = P(A|B) × P(B) / P(A)
举例说明,假设已经有了100个 email,其中:垃圾邮件占比60%,即 P(Spam) = 0.680%的垃圾邮件包含关键字“buy”,即 P(Buy|Spam) = 0.8
20%的垃圾邮件不包含关键字“buy”正常邮件占比40%,即 P(NotSpam) = 0.410%的正常邮件包含关键字“buy”,即 P(Buy|NotSpam) = 0.1
90%的正常邮件不包含关键字“buy”
现在,第101个 email 进来了,它包含关键字“buy”,那么它是垃圾邮件的概率 P(Spam|Buy) 是多少?
P(Spam|Buy) = P(Buy|Spam) × P(Spam) / P(Buy)
P(Buy) = P(Buy|Spam) × P(Spam)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。