赞
踩
P(white|B)=P(white and B)/P(B)
条件:所有特征之间是条件独立。 也就是“朴素”。
朴素贝叶斯中的朴素一词的来源就是假设各特征之间相互独立。这一假设使得朴素贝叶斯算法变得简单,但有时会牺牲一定的分类准确率。
2. 贝叶斯公式
首先给出贝叶斯公式:
换成分类任务的表达式:
二、朴素贝叶斯分类器
朴素贝叶斯分类器(Naive Bayes Classifier)是一种基于贝叶斯定理和特征条件独立假设的分类算法。它被广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。
朴素贝叶斯分类器的原理基于贝叶斯定理,即根据已知类别的数据来估计特征与类别之间的概率分布,然后使用这些概率来对新样本进行分类。
具体地,设特征向量为 X = (x1, x2, ..., xn),类别集合为 C = {c1, c2, ..., ck},我们的目标是计算在给定特征向量 X 的条件下,属于每个类别的概率 P(ci|X),然后选择具有最大后验概率的类别作为样本的分类结果。
朴素贝叶斯分类器的"朴素"之处在于它假设特征之间相互独立,即:
其中 P(c_i) 是类别 c_i 的先验概率,P(X|c_i) 是在类别 c_i 下特征向量 X 的条件概率,P(X) 是特征向量 X 的边缘概率。由于 P(X) 对所有类别都是相同的,因此可以忽略掉。
基于上述假设,我们可以计算出每个类别的后验概率,并选择具有最大概率的类别作为样本的分类结果。
朴素贝叶斯分类器的优点在于简单、高效,且对小规模数据表现良好;并且在特征之间条件独立的情况下,即使部分特征缺失,也能够进行有效的分类。然而,它也有一个明显的局限性,就是对特征条件独立的假设在实际问题中并不总是成立,因此在面对高维度、相关性较强的数据时,朴素贝叶斯分类器可能表现不佳。
三、简单的案例实现
email文件夹下有两个文件夹ham和spam。ham文件夹下的txt文件为正常邮件;spam文件下的txt文件为垃圾邮件。
完整代码:
1.
- # -*- coding: UTF-8 -*-
-
- import numpy as np
-
- import re
-
- import random
-
-
- #整理词汇表
-
- def createVocabList(dataSet):
-
- vocabSet = set([]) # 创建一个空的不重复列表
-
- for document in dataSet:
-
- vocabSet = vocabSet | set(document) # 取并集
-
- return list(vocabSet)
-
-
-
- def setOfWords2Vec(vocabList, inputSet):
-
- returnVec = [0] * len(vocabList) #创建一个其中所含元素都为0的向量
-
- for word in inputSet: #遍历每个词条
-
- if word in vocabList: #如果词条存在于词汇表中,则置1
-
- returnVec[vocabList.index(word)] = 1
-
- else:
-
- print("the word: %s is not in my Vocabulary!" % word)
-
- return returnVec #返回文档向量
-
-
- #构建词袋模型
-
- def bagOfWords2VecMN(vocabList, inputSet):
-
- returnVec = [0] * len(vocabList) # 创建一个其中所含元素都为0的向量
-
- for word in inputSet: # 遍历每个词条
-
- if word in vocabList: # 如果词条存在于词汇表中,则计数加一
-
- returnVec[vocabList.index(word)] += 1
-
- return returnVec # 返回词袋模型
-
-
-
- #朴素贝叶斯分类训练函数
-
- def trainNB0(trainMatrix, trainCategory):
-
- numTrainDocs = len(trainMatrix) # 计算训练的文档数目
-
- numWords = len(trainMatrix[0]) # 计算每篇文档的词条数
-
- pAbusive = sum(trainCategory) / float(numTrainDocs) # 文档属于垃圾邮件类的概率
-
- p0Num = np.ones(numWords)
-
- p1Num = np.ones(numWords) # 创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑
-
- p0Denom = 2.0
-
- p1Denom = 2.0 # 分母初始化为2 ,拉普拉斯平滑
-
- for i in range(numTrainDocs):
-
- if trainCategory[i] == 1: # 统计属于侮辱类的条件概率所需的数据,即P(w0|1),P(w1|1),P(w2|1)···
-
- p1Num += trainMatrix[i]
-
- p1Denom += sum(trainMatrix[i])
-
- else: # 统计属于非侮辱类的条件概率所需的数据,即P(w0|0),P(w1|0),P(w2|0)···
-
- p0Num += trainMatrix[i]
-
- p0Denom += sum(trainMatrix[i])
-
- p1Vect = np.log(p1Num / p1Denom)
-
- p0Vect = np.log(p0Num / p0Denom) #取对数,防止下溢出
-
- return p0Vect, p1Vect, pAbusive # 返回属于正常邮件类的条件概率数组,属于侮辱垃圾邮件类的条件概率数组,文档属于垃圾邮件类的概率
-
-
-
-
- #朴素贝叶斯分类函数
-
- def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
-
- p1=sum(vec2Classify*p1Vec)+np.log(pClass1)
-
- p0=sum(vec2Classify*p0Vec)+np.log(1.0-pClass1)
-
- if p1 > p0:
-
- return 1 #属于正常邮件类
-
- else:
-
- return 0 #属于垃圾邮件类
-
-
- #提取单词
-
- def textParse(bigString): # 将字符串转换为字符列表
-
- listOfTokens = re.split(r'\W*', bigString) # 将特殊符号作为切分标志进行字符串切分,即非字母、非数字
-
- return [tok.lower() for tok in listOfTokens if len(tok) > 2] # 除了单个字母,例如大写的I,其它单词变成小写
-
-
- #测试朴素贝叶斯分类器,使用朴素贝叶斯进行交叉验证
-
- def spamTest():
-
- docList = []
-
- classList = []
-
- fullText = []
-
- for i in range(1, 21): # 遍历20个txt文件
-
- wordList = textParse(open('email/spam/%d.txt' % i, 'r').read()) # 读取每个垃圾邮件,并字符串转换成字符串列表
-
- docList.append(wordList)
-
- fullText.append(wordList)
-
- classList.append(1) # 标记垃圾邮件,1表示垃圾文件
-
- wordList = textParse(open('email/ham/%d.txt' % i, 'r').read()) # 读取每个非垃圾邮件,并字符串转换成字符串列表
-
- docList.append(wordList)
-
- fullText.append(wordList)
-
- classList.append(0) # 标记正常邮件,0表示正常文件
-
- vocabList = createVocabList(docList) # 创建词汇表,不重复
-
- trainingSet = list(range(50))
-
- testSet = [] # 创建存储训练集的索引值的列表和测试集的索引值的列表
-
- for i in range(10): # 从50个邮件中,随机挑选出40个作为训练集,10个做测试集
-
- randIndex = int(random.uniform(0, len(trainingSet))) # 随机选取索索引值
-
- testSet.append(trainingSet[randIndex]) # 添加测试集的索引值
-
- del (trainingSet[randIndex]) # 在训练集列表中删除添加到测试集的索引值
-
- trainMat = []
-
- trainClasses = [] # 创建训练集矩阵和训练集类别标签系向量
-
- for docIndex in trainingSet: # 遍历训练集
-
- trainMat.append(setOfWords2Vec(vocabList, docList[docIndex])) # 将生成的词集模型添加到训练矩阵中
-
- trainClasses.append(classList[docIndex]) # 将类别添加到训练集类别标签系向量中
-
- p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses)) # 训练朴素贝叶斯模型
-
- errorCount = 0 # 错误分类计数
-
- for docIndex in testSet: # 遍历测试集
-
- wordVector = setOfWords2Vec(vocabList, docList[docIndex]) # 测试集的词集模型
-
- if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]: # 如果分类错误
-
- errorCount += 1 # 错误计数加1
-
- print("分类错误的测试集:", docList[docIndex])
-
- print('错误率:%.2f%%' % (float(errorCount) / len(testSet) * 100))
-
-
-
- if __name__ == '__main__':
-
- spamTest()
![](https://csdnimg.cn/release/blogv2/dist/pc/img/newCodeMoreWhite.png)
createVocabList 函数用于创建词汇表,它接收一个数据集并返回数据集中所有不重复单词的列表。
setOfWords2Vec 函数将输入的文本转换为向量,向量的每个元素表示词汇表中对应单词的出现情况。
bagOfWords2VecMN 函数构建了词袋模型,与 setOfWords2Vec 类似,但它统计了每个单词的出现次数而不是简单地记录是否出现。
trainNB0 函数用于训练朴素贝叶斯分类器,它接收训练数据以及对应的分类标签,计算每个单词在不同分类下的条件概率,并返回相应的概率向量。
cassifyNB 函数用于对新的文本进行分类,它接收一个文本向量以及训练得到的概率向量和类别概率,然后根据朴素贝叶斯分类规则进行分类。
textParse 函数用于将文本解析成单词列表,同时进行了大小写转换和去除长度小于等于2的单词等操作。
spamTest 函数是整个分类器的测试函数,它读取垃圾邮件和正常邮件的数据集,然后进行训练和测试,最后输出分类错误率。
四、改进思路总结
1.如何实现多分类
这部分只有二分类,要想多分类就不能只是0与1这么简单。模型要兼容多分类,可以对结果集利用np.unique(),然后取出值进行分类。特征单个种类分类多,也可以使用这种方法。如果比如身高这些特征符合正态分布,需要用正态分布概率进行计算。
2.如何提高预测准度
2.1、提高训练集数据的质量。基本所有机器学习对训练集的数据要求都很高,贝叶斯更是如此,如果你选取的数据质量不高,没有代表性,抽选随机性不高。对模型影响很大。
2.2、增加训练集的数量。这个非常好理解,我们投硬币,投的次数越多,正面概率越解决1/2。更接近真实值。
2.3、选取特征。我们知道贝叶斯假设是各个特征独立,那么我们选取特征的时候尽量不要有冗余,特征之间相关性不要太大。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。