赞
踩
朴素贝叶斯模型是一个简单却很重要的模型,在文本分类中,由于它出奇的简单实现和令人惊讶的表现,因此实际应用中,它都值得是第一个尝试的基准模型。本文接下来将从文本分类这个具体应用中介绍朴素贝叶斯模型。
在文本分类中,我们面临的问题是给定一个文本
上一节中,我们提到朴素贝叶斯是一种生成模型,也就是它对问题进行联合建模,利用概率的乘法法则,我们可以得到:
这就是朴素贝叶斯模型。显然,朴素贝叶斯的假设是一种很强的假设,实际应用中很少有满足这种假设的的情况,因为它认为只要在确定邮件是垃圾或者非垃圾的条件下,邮件内容地生成就是完全独立地,词与词之间不存在联系。
尽管朴素贝叶斯模型有很强的假设,而且实际文本也不满足这种假设,但是在分类应用中,它却表现不俗。在分类任务中,我们关心的部分是朴素贝叶斯模型的后验概率:
前面我们已经介绍了朴素贝叶斯模型,以及它是如何应用于文本分类中,接下来我们讲讲如何估计朴素贝斯模型的参数。为了估计参数,我们再来好好审视一下朴素贝叶斯模型,首先明确的是模型的组成部分
为了更方便进行参数求解,我们假设问题是一个有监督的问题,也就是我们的训练数据是包含标签的,比如我们有大量邮件,并且邮件已经标注好垃圾或者非垃圾。用数学记号表示,我们有
此项在贝叶斯模型中属于数据似然部分,如果不考虑先验概率分布
如果假设
由上述假设的过程,我们可以得到模型的极大似然表示为(每个特征都会有一个布尔变量
如果假设
由上述假设的过程,我们可以得到模型的极大似然表示为:
在stanford-nlp算法库中,有上述两种模型的实现,运用实现好的算法包相当简单,只要对原始文本进行分词,去除停用词,提取ngram特征,正则表达式特征等等特征工程,就可以很方便地调用算法包输出结果。
Michael Collins lecture note: The Naive Bayes Model, Maximum-Likelihood Estimation, and the EM Algorithm
Andrew Ng cs229 lecture note:http://cs229.stanford.edu/notes/cs229-notes2.pdf
Sebastian Raschka: Naive Bayes and Text Classification Introduction and Theory
stanford-nlp https://nlp.stanford.edu/software/classifier.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。