赞
踩
Naïve Bayes 分类的核心是计算条件概率P(y|x),其中y为类别,x为特征向量。其意义是在x样本出现时,它被划分为y类的可能性(概率)。通过计算不同分类下的概率,进而把样本划分到概率最大的一类。
根据条件概率的计算公式可以得到:
P(y|x) = P(y)*P(x|y)/P(x)。
由于在计算不同分类概率是等式右边的分母是相同的,所以只需比较分子的大小。并且,如果各个样本特征是独立分布的,那么p(x
|y)等于p(xi|y)相乘。
下面以文本分类来介绍Naïve Bayes分类的应用。其思路如下:
(1)建立词库,即无重复的单词表。
(2)分别计算词库中类别标签出现的概率P(y)。
(3)分别计算各个类别标签下不同单词出现的概率P(xi|y)。
(4)在不同类别下,将待分类样本各个特征出现概率((xi|y)相乘,然后在乘以对应的P(y)。
(5)比较不同类别下(4)中结果,将待分类样本分到取值最大的类别。
下面是Naïve Bayes 文本分类的Python代码,其中为了方便计算,程序中借助log对数函数将乘法转化为了加法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。