赞
踩
对于模式识别的方法,大体可以分为基于知识和基于数据的两类。所谓基于知识的方法,主要以专家系统为代表,一般归于人工智能的范畴;而基于数据的方法,则可归于基于数据的机器学习。
基于数据的方法,基础是统计模式识别,即依据统计的原理来建立分类器。
说到统计,则不得不谈到概率,这里罗列一些概率论的机器学习中的基本概念,百度都可以查到,不再赘述:
样本、样本集、类(类别)、特征、已知样本、未知样本、条件概率、先验概率、后验概率、监督学习、非监督学习
下面进入正题:
我们首先来看一个例子,对于身高、体重与性别的关系,想必都有一些感性的认识,比如,一个身高在180CM左右而体重在70KG,那这个人基本就是男性,而一个身高在160CM左右而体重在50KG,那这个人基本就是女性。
注意,这里的用词是‘基本’,因为这个问题我们只能根据我们的经验,通过对生活的观察,来做出相应的猜测,而这个人究竟是男性还是女性我们并不能肯定。
一般来讲,在判断这个人是男性还是女性的时候,我们的脑海中肯定是先估计一下这个人是男性的概率大致为多少,这个人是女性的概率大致为多少,而我们的结论则更倾向于概率较大的那个。
对于这个例子,我们需要有两点先验知识,第一点是男性和女性的总体比例是多少;第二点是男性中身高在180CM左右而体重在70KG比例和女性中身高在180CM左右而体重在70KG的比例。
而我们可以依据同样的原理,来利用计算机对这个问题及思考过程来进行模拟,这就是贝叶斯决策。
对于贝叶斯决策,同样需要两点先验知识:
-先验概率,对于上面的例子,也就是男性占中体人数的比例和女性占总体人数的比例,我们分别记为P(man),P(woman)
-类条件概率密度,对于上面的例子,也就是男性(女性)中身高在180CM左右而体重在70KG的比例,这个在概率论中则对应于条件概率,我们分别记为P(h=180,w=70|man),P(h=180,w=70|woman)
接下来的工作则是基于概率论中著名的公式,贝叶斯公式:
关于这个公式的证明,很容易,依照条件概率的定义即可得到,感兴趣的读者可以百度一下。这个定理虽然很简单,但是却建立起先验概率和后验概率相互转化的桥梁。
关于这个公式的理解,形象点来讲,就是通过‘我很饿的情况下选择吃包子的概率‘推导出‘我吃包子的情况下我很饿的概率’。
至此,我们不妨将我们的先验知识代入到这个公式中,可以得到:
进而可以得到:
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。