赞
踩
提示:特征选择
特征选择是指从原始特征集中选择一些特征组成新的特征子集,选择特征时需要参照某个标准,根据这个标准去筛选特征,进而降低原始特征集的维度,用经过筛选后的特征集去辨识故障时要求其能达到比原始特征集更精确的识别度,同时能够降低计算复杂度。
从图中可以清晰地看出特征选择方法包含 4 个基本步骤(产生子集、子集评价、停止准则、结果验证)。目前特征选择方法的研究重点是如何产生较优的子集以及用什么样的准则去评价故障特征子集。
随机算法的共同缺点:依赖于随机因素,有实验结果难以重现。
以上5种度量方法中,相关性、距离、信息增益、一致性属于筛选器,而分类器错误率属于封装器。
特征选择的过程是一个循环过程,因此需要一个停止循环的条件来判断这个循环过程什么时候结束,这个条件即称为停止准则。这个准则的确立需要参考前面两小节所讲的内容,通常情况下它是一个阈值,在循环的过程中如果评价函数值达到这个值,那么就需要停止循环,这个时候得到的特征子集将会被保存下来作为最优子集,当条件不满足时,则循环重新开始,重新产生子集,执行循环直至满足条件。阈值的准确设置对停止准则影响很大,在设置这个固定值的时候,需要对特征选择算法有足够的了解,根据算法的要求来设置一个恰当的值。如果这个值设置的不合适,那么将会导致算法进入死循环或者算法的性能达不到预期的效果。在实际的应用中需要结合具体的特征选择算法设置阈值,有时也会采用算法的运行时间或者算法的运行次数作为停止条件,即当算法运行到一定的时间或者次数时,即使还没有求得最优结果,也结束算法的运行将结果输出。
特征选择的分类验证是指在分类器上验证所选特征子集是否对分类有帮助,将通过特征选择得到的特征子集输入到分类器中去,验证这个特征集能否准确地识别出旋转机械的故障状态,确保选择的特征子集有比原始特征集更强的分类能力,能够提高分类准确率,这就是特征选择算法所要达到的目的。
本小节从评价准则方面对特征选择方法进行分类,根据特征选择方法与后续学习算法的关系,可以将其分为过滤方法(Filter)、封装方法(Wrapper)、嵌入法。过滤方法是指特征选择的过程与后续学习算法间相互独立,封装和嵌入法均依赖于具体的分类学习算法,下面对以上三种方法进行具体分析。
过滤式特征选择方法
过滤式特征选择方法的优点是计算速度快,这类方法使用合适的标准通过增强特征与类的相关性,消减特征之间的相关性来快速地选择出特征。过滤式特征选择方法依据数据的内部特性评估某个特征的好坏,它高运算效率的优点决定了它适合处理规模比较大的数据集。但是当特征与分类器的联系比较紧密时,这种方法就不能保证它筛选出来的特征子集具有较小的维度。即使这类方法最终找到的特征集满足事先设定的条件,那么这个特征集也是很庞大的,甚至其中会包含一些对分类无用的特征。给寻找关键性的敏感特征带来了阻碍。过滤式特征选择方法的一般过程如图所示。
Embedded嵌入法
嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行。在使用嵌入法时,我们先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征。这些权值系数往往代表了特征对于模型的某种贡献或某种重要性,比如决策树和树的集成模型中的feature_importances_属性,可以列出各个特征对树的建立的贡献,我们就可以基于这种贡献的评估,找出对模型建立最有用的特征。因此相比于过滤法,嵌入法的结果会更加精确到模型的效用本身,对于提高模型效力有更好的效果。并且,由于考虑特征对模型的贡献,因此无关的特征(需要相关性过滤的特征)和无区分度的特征(需要方差过滤的特征)都会因为缺乏对模型的贡献而被删除掉,可谓是过滤法的进化版。
过滤法中使用的统计量可以使用统计知识和常识来查找范围(如p值应当低于显著性水平0.05),而嵌入法中使用的权值系数却没有这样的范围可找——我们可以说,权值系数为0的特征对模型丝毫没有作用,但当大量特征都对模型有贡献且贡献不一时,我们就很难去界定一个有效的临界值。这种情况下,模型权值系数就是我们的超参数,我们或许需要学习曲线,或者根据模型本身的某些性质去判断这个超参数的最佳值究竟应该是多少。在我们之后的学习当中,每次讲解新的算法,我都会为大家提到这个算法中的特征工程是如何处理,包括具体到每个算法的嵌入法如何使用。在这堂课中,我们会为大家讲解随机森林和决策树模型的嵌入法。另外,嵌入法引入了算法来挑选特征,因此其计算速度也会和应用的算法有很大的关系。如果采用计算量很大,计算缓慢的算法,嵌入法本身也会非常耗时耗力。并且,在选择完毕之后,我们还是需要自己来评估模型。
封装式特征选择方法
包装法也是一个特征选择和算法训练同时进行的方法,与嵌入法十分相似,它也是依赖于算法自身的选择,比如coef_属性或feature_importances_属性来完成特征选择。但不同的是,我们往往使用一个目标函数作为黑盒来帮助我们选取特征,而不是自己输入某个评估指标或统计量的阈值。包装法在初始特征集上训练评估器,并且通过coef_属性或通过feature_importances_属性获得每个特征的重要性。然后,从当前的一组特征中修剪最不重要的特征。在修剪的集合上递归地重复该过程,直到最终到达所需数量的要选择的特征。区别于过滤法和嵌入法的一次训练解决所有问题,包装法要使用特征子集进行多次训练,因此它所需要的计算成本是最高的。
注意,在这个图中的“算法”,指的不是我们最终用来导入数据的分类或回归算法(即不是随机森林),而是专业的数据挖掘算法,即我们的目标函数。这些数据挖掘算法的核心功能就是选取最佳特征子集。
最典型的目标函数是递归特征消除法(Recursive feature elimination, 简写为RFE)。它是一种贪婪的优化算法,旨在找到性能最佳的特征子集。 它反复创建模型,并在每次迭代时保留最佳特征或剔除最差特征,下一次迭代时,它会使用上一次建模中没有被选中的特征来构建下一个模型,直到所有特征都耗尽为止。 然后,它根据自己保留或剔除特征的顺序来对特征进行排名,最终选出一个最佳子集。包装法的效果是所有特征选择方法中最利于提升模型表现的,它可以使用很少的特征达到很优秀的效果。除此之外,在特征数目相同时,包装法和嵌入法的效果能够匹敌,不过它比嵌入法算得更见缓慢,所以也不适用于太大型的数据。相比之下,包装法是最能保证模型效果的特征选择方法。
工作原理如下:
首先,使用所有特征训练一个模型,并计算每个特征的权重或系数。
然后,排序这些特征的权重或系数,并删除权重或系数最小的特征。
重复步骤1和步骤2,直到特征数量达到预设的值
1, https://www.cnblogs.com/heaad/archive/2011/01/02/1924088.html
2, https://blog.csdn.net/2301_81199775/article/details/138661091
3, 转子故障数据集的特征选择方法研究
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。