赞
踩
特征提取
类别可分离性判据
特征提取与选择的共同任务是找到一组对分类最有效的特征,有时需要一定的定量准则(或称判据)来衡量特征对分类系统(分类器)分类的有效性。换言之,在从高维的测量空间到低维的特征空间的映射变换中,存在多种可能性,到底哪一种映射变换对分类最有效,需要一个比较标准。此外,选出低维特征后,其组合的可能性也不是唯一的,故还需要一个比较准则来评定哪一种组合最有利于分类。
1.可分离性判据满足的条件
从理论上讲,可以用分类系统的错误概率作为判据,选取分类系统错误(概)率最小的一组特征作为最佳特征。但在实践中;由于类条件分布密度经常是未知的,且即使已知其分布但难于用计算机实现。因此,要研究实用的判据。研究证明,当它们满足以下条件时可作实用判据:
1)与分类的错误率的上界、下界有单调关系时,使判据最大的效果,一般其错误率也较小;
2)当各特征相互独立且有可加性时,可分离准则函数愈大,则类的分类程度愈大;
3)在加入新的特征后,判据并不减少;
4)具有度量特性,即
式中 Jij——第i类和第j类的可分性判据函数。
2.类内类间距离
不同的类样本占有不同的特征空间的区域,只要这些区域不相交叠,它们就可以分开。所以,不同类样本区域间的距离愈大,其可分性就愈大。经常用样本间的平均距离作为特征提取的判据函数。重要的距离有Minkowski度量δM、欧氏距离δE、Chebychev距离δT、平方距离δQ和非线性度量δN等。在不考虑各类的概率分布时,不能确切地表达各类的交叠状况,且不能直接表达错误率,但它有计算方便和观念直观清晰等优点。为此,应考虑概率距离,如Bhattacharyya距离等。要计算概率距离,应先知道各类的先验概率分布。若从特征的后验概率分布来确定分类的有效性,可能得到最优分类的效果。研究表明:后验概率分布越集中,其错误率就越小;平缓的后验概率分布,如均匀分布,其分类的错误率就会越大。因而,利用不确定性最小的特征进行分类是最有利的,故可用信息熵来度量后验概率分布的集中程度。可用熵函数的期望值表征类别的分离程度,它就可以作为分类有效性的评价。
特征提取的方法
1. 基于欧氏距离测度的特征提取法
在D维特征空间选取d个特征,它应该使c个类别的各样本间的平均距离J(x)最大,即
式中 x——D维特征向量,x*为其最优值;
、——c个类别中ωi类与ωj类的D维特征向量(样本值),其上标表示类号,下标表示样本号,第二(右边)下标表示该样本的特征序号;
J(x)——c个类别中各样本间的平均距离;
pi与pj——第i类与第j类的先验概率,当pi与pj未知时可用式(25)估计;
n——设计的样本总数;
ni、nj——设计集中ωi类与ωj类的样本数;
δ(、)——类别各样本间的平均距离的测度(度量)。在多数情况下利用欧氏距离测度,δE,以便于计算分析。
若用Sb表示类间离散度矩阵,Sw表示类内离散度矩阵,并用期望值代替上式中的样本值后,可以得以下五种判据:
上述判据中,J2、J3和J5判据在任意一种非奇异线性变换下保持下变,J4判据判据与坐标系相关联。从应用角度看,J1与J3判据无须存储任何矩阵,计算最方便。应用J5可以得到在两类和多类都有用的可分性的特征。而用J2判据在其Sb的本征值λj(j=1,2,…,n)中有一个很大就会出现对两类有很好的可分性,但对多类中的其他各类的可分性不好。
式(26)~式(30)中,“tr”表示矩阵的秩,“T’表示矩阵转置。
2.基于概率距离判据的特征提取法
虽然基于欧氏距离测度判据的特征提取法有其优点,但它不能描述各类的概率分布,不能确切地表达各类交叠的状况,故不能直接与错误率相联系。因此,要考虑基于概率距离判据的特征提取法。研究证明,只有在概率密度有参数形式时才能把判据写成便于计算的解析式,故经常研究多维正态分布时的两类问题(c=2)。这时常用Jc、Jd两个判据。
(1)Chernoff界限Jc
式中 S——在[0,1]闭区问中取值的参数。
(2)散度Jd 它被定义为区分ωi与ωj类的总的平均信息。它等于两类平均可分信息之和,利用Jc与Jd可以设计特征撮取器的d个坐标,使判据达到最大。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。