赞
踩
解决模式识别问题的方法:基于知识和基于数据。基于知识归在人工智能范畴中。
分类器的定义:基于数据的方法是模式识别最主要的方法,在无特别说明的情况下,人们说模式识别通常就是指这一类方法,其任务可以描述为:在类别标号y与特征向量x存在一定的未知依赖关系、但已知的信息只有一组训练数据对{(x,y)}的情况下,求解定义在x上的某一函数y’=f(x),对未知样本的类别进行预测。这一函数叫做分类器。这种根据样本建立分类器的过程也称作一作学习过程。
监督模式识别与非监督模式识别
监督模式识别:在要解决的模式识别问题中,我们已知要划分的类别,并且能够获得一定数量的类别已知的训练样本,这种情况下建议分类器的问题属于监督学习问题,称作监督模式识别。
非监督模式识别:我们事先不知道要划分的是什么类别,更没有类别已知的样本用作训练,很多情况下我们甚至不知道有多少类别。我们要做的是根据样本特征将样本聚成几个类,使属于同一类的样本在一定意义上是相似的,而不同类之间的样本则有较大差异。这种学习过程称作非监督模式识别。(在统计中通常被称作聚类)
贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计,然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策
什么是贝叶斯决策:在类条件概率密度和先验概率已知(或可以估计)的情况下,通过贝叶斯公式比较样本属于两类的后验概率,将类别决策为后验概率大的一类,这样做的目的是为了使总体错误率最小。
最小错误贝叶斯决策 :从最小错误率的要求出发,利用贝叶斯公式就能得出使错误率最小的分类决策。
最小风险贝叶斯决策:考虑各种错误造成损失不同时的一种最优决策。
贝叶斯决策的基本思想:根据一定的概率模型得到样本属于某类的后验概率,然后根据后验概率的大小来进行决策。
统计决策的基本原理:根据各类特征的概率模型来估算后验概率,通过比较后验概率进行决策。
概率密度函数估计方法分为参数估计与非参数估计:
参数估计:已知概率密度的形式,但其中部分或者全部参数未知,概率密度函数的估计问题就是用样本来估计这些参数。主要方法分为:最大似然估计和贝叶斯估计。
非参数估计:概率密度函数的形式也未知,或者概率密度函数不符合目前研究的任何分布模型,因此不能仅仅估计几个参数,而是用样本把概率密度函数数值化地估计出来。
基于样本直接设计分类器需要确定的三个基本要素:①分类器即判别函数的类型②分类器设计的目标或准则③在前两个要素明确之后,如何设计算法利用样本数据搜索到最优的函数参数。
Fisher线性判别的思想:选择投影方向,使投影后两类相隔尽可能远,而同时每一类内部的样本又尽可能聚集。(投影后类内方差最小,类间方差最大)
感知器:一种直接得到完整的线性判别函数的方法。是最简单的可以学习的机器。只能解决线性可分的问题。经过有限次的迭代梯度下降法可以收敛到一个解,当样本不是线性可分时,仍然使用感知器算法,则算法不会收敛。
最优分类超平面:一个超平面,如果它能够将训练样本没有错误地分开,并且两类训练样本中离超平面最近的样本与超平面之间的距离是最大的,则把这个超平面称作为最优分类超平面。最优超平面的解最后完全是由支持向量决定。
关于经验风险与期望风险:在某个权值参数w下,对所有训练样本的分类进行决策的损失成为经验风险;我们真正关心的是在权值w下,未来所有可能出现的样本的错误率或风险,称为以期望风险。
经验风险与期望风险的关系:经验风险只是在给定的训练样本上对期望风险的估计。经验风险可以为0,但一般来讲期望风险是小于期望风险的。
人工神经网络的基本思想:根据对自然神经系统构造和机理的认识,神经系统是由大量的神经细胞构成的复杂的网络,人们对这一网络建立一定的数学模型和算法,设法使它能够实现诸如基于数据的模式识别、函数映射等带有“智能”的功能,这种网络就是人工神经网络。
BP算法的基本做法:在训练开始前,随机赋予各权值一定的初值。训练过程中,轮流对网络施加各个训练样本。当某个训练样本作用于神经网络输入端后,利用当前权值计算神经网络的输出,这是一个信号从输入到隐层再到输出的过程,称作前向过程。考察所得到的输出与训练样本的已知正确输出之间的误差,根据误差对输出层权值的偏导数 修正输出层的权值;把误差反向传递到倒数第二层的各节点上,根据误差对这些节点权值的偏导数修正这些权值,依此类推,直到把各层的权值都修正一次。然后,从训练集中抽出另外一个样本进行同样的训练过程。如此不断进行下去,直到在一轮训练中的总的误差水平达到预先设定的阈值,或者训练时间达到了预定的上限。
人工神经网络的三要素:神经元的传递函数、网络结构(神经元的数目和相互间的连接形式)和连接权值的学习算法。
选择多层感知器网络的隐层节点数目(和隐层个数)可有三种做法:
① 根据具体问题进行试探选择
② 根据对问题的先验知识去精心设计隐层节点的层数和节点数目
③ 试图用算法来确定隐层节点数目
支持向量机:
支持向量机就是采用引入特征变换来将原空间中的非线性问题转换成新空间中的线性问题。
支持向量机的基本思想:首先通过非线性变换将输入空间变换到一个高纬空间,然后在这个新空间中求最优分类面即最大间隔分类面,而这种非线性变换是通过定义适当的内积核函数实现的。
支持向量机最主要的特点:它能够在样本数相对较少、特征维数高的情况下仍然取得很好的推广能力
最近邻法:对于一个新样本,把它逐一与已知样本比较,找出距离新样本最近的已知样本,以该样本的类别作为新样本的类别。
交叉验证的基本思想:在现有总样本不变的情况下,随机选用一部分样本作为临时的训练集,用剩余样本作为临时的测试集,得到一个错误率估计:然后选用另外一部分样本作为临时训练集,起于样本作为临时测试机,在得到一个错误率估计……如此反复多次,最后将各个错误率求平均,得到交叉验证错误率。
决策树:利用一定的训练样本,从数据中“学习”出决策规则,自动构造出决策树。 要做的就是,把经验变成有说服力的客观数据,或是由什么推断而来的。
随机森林:顾名思义,就是建立很多决策树,组成一个决策树的“森林”,通过多棵树投票来进行决策。
随机森林方法三个基本步骤:
①首先,随机森林方法对样本数据进行自举重采样,得到多个样本集。
②用每个重采样样本集作为训练样本构造一个决策树。
③得到所需数目的决策树后,随机森林方法对这些树的输出进行投票,以得票最多的类作为随机森林的决策。
遗传算法:思路来源人们对生物进化过程的认识。适者生存,最优时示值的解有最大可能留住。
基本步骤:①初始化,t=0,,随机地产生一个包含L条不同染色体的种群M(0);
②计算当前种群M(t)中每一条染色体的适应度f(m);
③按照选择概率p(f(m))对种群中的染色体进行采样,由采样出的染色体经过一定的操作繁殖出下一代染色体,组成下一代的种群M(t+1);
④回到②,直到达到终止条件,输出适应度最大的染色体作为找到的最优解。终止条件通常是某条染色体的适应度达到设定的阈值。
特征选择与特征提取的不同点:特征选择是已知N个特征,从其中选出n个特征(n<N),而特征提取是已知N个特征,通过适当的变换把N个特征转换成n个新特征(n<N)。都是特征空间降维的方法
主成分分析法(PCA):是一种特征提取的方法。通常的做法是首先用样本估算协方差矩阵或自相关矩阵,求解其特征方程,得到各个主成分方向,选择适当数目的主成分作为样本的新特征,讲样本投影到这些主成分方向上进行分类或聚类。
在模式识别中,使用主成分分析可以实现对特征的变换和降维。这种特征变换是非监督的,没有考虑样本类别的信息。在监督模式识别的情况下,以方差大为目标进行的主成分分析并不一定总有利于后续的分类。
参考书目:模式识别(清华大学出版社,第三版,张学工编著)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。