赞
踩
特征选择和优化的基本任务是如何从许多特征中找出那些最有效的特征。解决特征选择
和特征优化问题,最核心的内容就是如何对现有特征进行评估,以及如何通过现有特征产生更
好的特征。在实际应用中,对特征选择与处理大致过程如图2-1所示。
特征选择与优化过程如下:
(1)对样本特征库进行初步分析是指对原始数据进行抽取,抽取那些对区别不同类别最
为重要的特征,而舍去那些对分类并无多大贡献的特征,从而得到能反映分类本质的特征。考
查所选特征是否合理,能否实现分类。如果把区别不同类别的特征都从输人数据中找到,这时
自动模式识别问题就简化为匹配和查表,模式识别就不困难了。
(2)对样本筛选处理的目的是去掉“离群点”,减少这些“离群点”对分类器的干扰。当条
件所限无法采集大量的训练样品时,应慎重对待离群点。样本在特征空间中的理想分布是同
类相聚、异类远离,但是在现实中很难达到理想的分布状态,就要求分类器具有泛化。
(3)**特征筛选处理的目的是分析特征之间的相关性,考查每个特征因子与目标有无关
系,以及特征因子之间是否存在相关关系。**删去那些相关的因子,在样本不多的条件下可
以改善分类器的总体性能,降低模式识别系统的代价。特征的选择常常面临着保留哪些描
述量、删除哪些描述量,通常要经过从多到少的过程。因为在设计识别方案的初期阶段,应
该尽量多的列举出各种可能与分类有关的特征,这样可以充分利用各种有用的信息,改善
分类效果。但大量的特征中肯定会包含许多彼此相关的因素,造成特征的重复和浪费,给计
算带来困难。Kanal. L曾经总结过经验:样品数N与特征数n之比应足够大,通常样本数N是
特征数n的5~10倍。
(4)**特征评判的目的是分析经过筛选之后的特征,对分类效果能否提高,能否拉大不同类
别之间的距离。**对一个模式类特征选择的好与坏,很难在事先完全预测,而只能从整个分类识
别系统获得的分类结果给予评价。
(5)特征提取目的是用较少的特征对样本进行描述,以达到降低特征空间维数的目的。
(6)接着需要进一- 步掌握样本库的总体分布情况,若发现效果不理想,应再- -次 考察样本
库,或重新提取特征,或增加特征,或进一步删除“离群点”等。
如何确定合适的特征空间是设计模式识别系统十分重要、甚至更为关键的问题。如果所
选用的特征空间能使同类物体分布具有紧致性,即各类样本能分布在该特征空间中彼此分割
开的区域内,这就为分类器设计成功提供了良好的基础。反之,如果不同类别的样本在该特征
在模式识别处理之前,需要先评估一下特征库是否包含足够信息,用它做模式识别是否可行或值得。
通常要求样本数量N要足够大,符合下列关系。
①对两类分类问题:N/n≥3,此处n为特征数目,N为样本的数量。
②对线性或非线性回归问题:N>>n。
若实际课题中,由于不能确定哪些因素有影响,只能选择过多的特征,以致样本数量N不
合乎上述要求。在无法获得足够多的样本情况下,应考虑下列两个措施。
①通过特征筛选去除一批对目标影响小的特征,使n减少。
②通过原理方面的论证或试探性地将若干特征组合成数目较少的特征。
对样本特征库做初步分析的主要工作是衡量各类别之间的可分性,最常用的方法是应用
“KNN留一法”判据做近邻分析。KNN留一法是以每个样品点与其多数最近邻属于同类与否
作为判据。
根据样品在多维空间中的位置,计算各样品之间的距离,找出样品的三个、五个或多个最
近邻,列表显示该样品的类别及近邻的类别,判断该最近邻是否属于同类,将多个同类的样品
所属的类别作为预报该样品的类别,并与实际类别比较,仔细考查近邻分析结果,可对数据结
构有一个大致的了解。如果样本在特征空间中分散,则需要选择具有泛化能力强的分类器,如
神经网络分类器、支持向量机分类器等。
通常将“离群点"称为噪声噪声干扰可能带来严重的后果。例如,使拟合度最佳的标准
导致失误,或使真正有效的数学模型反而比“假”模型拟合度差些。用预报结果检验可能会甄
别此事。统计数学上,样品筛选处理的目的主要是删去某些离群的样品点,改善分类效果。定
义和判断“离群点”的方法有以下几种。
①若样本特征呈近线性关系,可用稳健回归方法确定“离群点”。
②若样本特征不呈近线性关系,通常将近邻多半为异类的样品删除,或将其目标值与各近邻平均值相差特别大的样品删除,也可以将特征压缩后做回归分析。
上述方法由于认定和删去离群点基于若干假定,事先无法确定这些假定是否合乎实际,因此对删除后的数据必须谨慎对待。在实践中若能对离群点是否为“真离群点做反复验证,才
能增加结果的可靠性。经过初步评估,对“可分性”不满意时,可试行“样品筛选”操作,改善可分性。
在实际应用中,人们只能尽量多列一.些可能有影响的因素,然后通过数据处理,考查和筛选出作用较大的特征,删去影响不大的特征,从而建立数学模型。特征筛选的第-步是对每个
特征做分析,考查每个特征与目标的相关性,特征与特征之间的相关性。
用原始变量为坐标作投影图,考查单个特征、双特征、多特征对目标值的影响,计算相关系数。
将所有特征逐个对目标值作二维图,计算目标值t与特征
x
j
x_j
xj之间的相关系数
式中,i为样品号数;
t
i
t_i
ti,
x
i
j
x_{ij}
xij为第i个样品的目标值和第j个特征值;
b
a
r
i
bar{i}
bari和x分别为所有样本的目标值的平均值和第j个特征的平均值;相关系数r(1,
x
j
x_{j}
xj)介于1与-1之间,作为最简单的近似方法,各特征的重要性可用相关系数的绝对值大小评估。
根据特征对目标值或分类的影响大小,删去作用小、噪声大的变量。为了不漏掉重要因子,一开始我们宁可多选一-些特征, 然后根据各个特征在描述研究对象时作用的大小,删去那些带来信息少、噪声多的特征;并将删后保留的特征按其与描述对象关系的大小做-一个大致的排序,突出主要因素,这对建立模式识别系统是十分必要的。特征筛选的原理是:一个原有n+1个特征的特征库,删去其中-一个特征,得到一个特征数为n的新数据库;若删去的变量贡献的信息小于带来的噪声量,删去后信息量未显著减少或反而增加,则该特征为可删变量。
在所有特征中每次取出两个特征作为纵、横坐标作图,同时将样本分为两类(或多类),以.不同符号显示于图中,据此考查两类或多类样本在图中分布的规律;同时还显示两个特征间的相关系数。
在所有特征中每次选用三个,作为x,y,z坐标作三维图,同时将样本分为两类或多类,以不同符号显示于图中,据此考查各类样本在三维空间的分布规律;也可选两个特征为x和y坐标,目标值为z坐标,考查其关系。三维结构可通过图形旋转考查,同时显示旋转后的二维坐标与原始变量的关系。
将原始多维空间“切割”为几个子空间,然后再做相关分析,往往能揭示重要的规律性。
因复杂系统往往是多特征问题,目标值或目标类别往往由三个以上的因子共同决定,单考查一个、两个或三个因子的影响往往不够,因为由于其他因子(特征)变化的干扰,往往不能有效地全面显示特征空间的规律性,只有运用多种模式识别方法建模才能全面解决问题。但是作为初步考查手段,相关分析方法(特别是与子空间局部考查结合后)很有用,因为相关分析及其作图方法显示的是原始特征,若能找到规律,其物理(或化学)意义的诠释比较简单明了。各种模式识别方法虽能提供更完整可靠的数学模型,但因其坐标表达式多为多个原始变量的线性或非线性组合,诠释比较复杂。
相关分析的局限性:根据前述的单特征相关分析方法,删除相关系数小的特征。这种方法对于样本分布不均匀的特征库是不可靠的做法。如果目标与特征之间呈线性关系,对于样本分布不均匀的数据文件,单比较相关系数也不是绝对可靠的做法,因为它没有考虑其他特征的影响。总而言之,可以肯定的是:若x与1(或x)相关系数很大(如0.5以上或-0.5以下),x肯定对1(或x,)有较大影响;若相关系数较小,则要参照其他.信息才能决定是否可删。
特征选择的任务是从一-组数量为D的特征中选择出数量为n(D>n)的一组最优特征来,一方面需要确定可分离性判据J(x),对特征选择效果做评估,选出使某–可分性达最大的特征组来(详见2.4节)。另一方面是要找到一个较好的算法,以便在允许的时间内找出最优的那一组特征。
对原特征空间进行优化之后,就要对优化的结果进行评价,通过反复选择不同的特征组合,采用定量分析比较的方法,判断所得到的特征维数,及所使用特征是否对分类最有利,这种用以定量检验分类性能的准则称为类别可分离性判据,用来检验不同的特征组合对分类性能好坏的影响。对特征空间进行优化是-种计算过程,它的基本方法仍然是模式识别的典型方法,即找到-一种准则(或称判据),通常用一种式子表示,使这种计算准则达到一-个极值。对特征评估的方法大体分两类:-类以计算样品在特征空间离散程度为基础的准则,称为基于距离的可分性判据;另一类则基于概率密度分布的判据。
给定一组表示联合分布的训练集,假定每–类的模式向量在观察空间中占据不同的区域是合理的,类别模式间的距离或平均距离则是模式空间中类别可分离性的度量。基于距离的可分性判据的出发点:各类样本之间的距离越大、类内散度越小,则类别的可分性越好。基于距离的可分性判据直接依靠样本计算,直观简捷,物理概念清晰,因此目前应用较为广泛。
在模式识别问题中,对于初始特征的选择,绝大多数都是在考虑样本的可分性意义上
进行的。所以很多时候选择的初始特征集合都会包含大量互相关联的特征,它们对于样本分类的贡献也是很不相同的。大的特征向量集合有很多的不便,最明显的就是计算方面会有很大负担。所以,在模式识别问题中,通常的任务就是进行特征的选择。在最初的模式识别工程中,这种选择有两个目标:或者丢弃一些对分类贡献不大的特征;或者达到一 定程度降维的目的,降维的方法通常是采用一个从初始特征衍生得到的、更小的、与原特征集相
当的特征集合。
主成分分析是把多个特征映射为少数几个综合特征的一种统计分析方法。在多特征的研究中,往往由于特征个数太多,且彼此之间存在着一定的相关性,因而使得所观测的数据在一定程度上有信息的重叠。当特征较多时,在高维空间中研究样本的分布规律就更麻烦。主成分分析采取一种降维的方法,找出几个综合因子来代表原来众多的特征,使这些综合因子尽可能地反映原来变量的信息,而且彼此之间互不相关,从而达到简化的目的。
如果从研究总体中抽取N个样品,每个样品有2个指标,
这时的主分量实际上是二维空间的几何意义问题。
设N个样品在二维空间中的分布大致为一个椭圆,如
图2-2所示。将坐标系正交旋转-一个角度θ,在椭圆长轴方向
取坐标y,在短轴方向取坐标y2,则旋转公式为
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。