赞
踩
1.朴素贝叶斯
首先从一个最简单的概率分类器开始,然后给出一些假设来学习朴素贝叶斯分类器。
称之为‘朴素’,是因为整个形式过程只做最原始、最简单的假设。
优点:在数据较少的情况下仍然有效,可以处理多类别的问题。
缺点:对于输入数据的准备方式较为敏感。
适用数据类型:标称型类型。
2.贝叶斯决策理论
假设现在我们有一个数据集,它由两类数据组成,数据分布如下图,
用p1(x,y)表示数据点(x,y)属于类别1的概率,用p2(x,y)表示数据点(x,y)属于类别2的概率。
对于一个新的数据点(x,y),可以用下面的规则来判断它的类别:
-->如果p1(x,y) > p2(x,y),那么类别为1;
-->如果p2(x,y) > p1(x,y),那么类别为2。
面对上述这样的问题,目前遇到了三种解决方法:k_近邻、决策树、概率:
(1)使用k_近邻,进行1000次距离计算(计算量很大)
(2)使用决策树,分别沿x轴、y轴划分数据(预测容易失败)
(3)使用贝叶斯决策函数,即概率(成功率较好,且计算量不大)
3.条件概率
(1)假设现在有一个装了7块石头的罐子,其中3块是灰色的(gray),4块是黑色的(black),
所以,P(gray) = 3/7 P(gray) = 4/7
(2)如果现在这7块石头如上图放在两个桶中,计算方式为:
P(gray | bucketB) = P(gray and bucketB) / P(bucketB) = (1/7) / (3/7) = 1/3
同时这个公式也成立:P(gray and bucketB) = P(gray | bucketB) * P(bucketB) (这样更好理解)
贝叶斯准则:
P(c | x) = P(x | c) * P(c) / P(x)
这个公式可以这样理解:
P( c and x) = P(c | x) * P(x)
P( x and c) = P(x | c) * P(c)
因为P( c and x) = P( x and c),所以P(c | x) * P(x) = P(x | c) * P(c) --> P(c | x) = P(x | c) * P(c) / P(x)
4.使用条件概率来分类
前面提到贝叶斯决策理论要求计算两个概率P1(x, y)和P2(x, y)
如果:P1(x, y) > P2(x, y),那么属于类别c1;
如果:P2(x, y) > P1(x, y),那么属于类别c2;
也可以这样描述,
如果:P(c1 | x, y) > P(c2 | x, y),属于类别c1;
如果:P(c2 | x, y) > P(c1 | x, y),属于类别c2;
根据贝叶斯准则,计算P(ci | x, y):
P(ci | x, y) = P( x, y | ci) * P(ci) / P(x, y)
5.朴素贝叶斯
由统计学知,如果每个特征需要N个样本,那么对于10个特征将需要N**10个样本。但是,如果特征之间相互独立,那么样本数就可以从N**1000减少到1000*N。
所谓独立(independence)指的是统计意义上的独立,即一个特征或单词出现的可能性与它和其他单词相邻没有关系。当然,我们知道这种假设并不正确,bacon常常出现在decilious附近,而很少出现在unhealthy附近,这个假设正是朴素贝叶斯分类器中朴素(naive)一词的含义。
朴素贝叶斯的另一个假设是,每个特征同等重要。(即每个特征的权重一致)
朴素贝叶斯分类器通常有两种实现方式:一种基于贝努力模型实现,一种基于多项式模型实现。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。