赞
踩
特征提取与生成之后,可以得到大量特征,但并非所有的特征都有很强的预测能力,而且特征与特征之间存在一定的相关性,在正式建模之前需要对特征进行选择和降维。
进行特征选择需要有明确的、具备可操作性的特征评价标准,以此评价标准作为特征选择的依据,常见的评价标准如下
通常金额类变量慎用,原因是有些金额类变量例如收入,会随着通货膨胀而逐渐漂移,同时,收入变量通常具有地区差异性,也不具备可比性。
数据角度是从数据本身的分布特征出发,对特征质量进行评价,包括如下内容
通过预测类模型,例如通过判别分析、随机森林等筛选出预测力强的变量,或者使用XGBoost或LightGBM模型可以直接得到特征重要性,即模型训练后直接读取模型对象的importance 属性即可。
特征选择是从特征清单中按照特征评价标准选出真子集。特征选择技术可精简无用特征,在不显著影响预测准确率的情况下,降低最终模型的复杂性,其目的是得到一个简约模型。
特征降维与特征选择类似但稍有差别,特征选择是从特征清单中选出真子集,而特征降维除了可以通过特征选择来实现,也可以通过特征组合实现,即通过模型进行特征组合计算,得到若干低维组合特征变量。特征降维的目的是将原始特征从高维空间压缩到低维空间,并且最大限度保持空间内部结构(样本分布方差、向量距离、向量内积等)。
虽然从定义概念上讲,特征降维和特征选择有差异,但大多数情况下,从实际应用的角度看,不用明确区分特征选择和特征降维。特征选择和降维主要有三类方法:过滤法(Filtering)、嵌入法(Embedded)、包装法(Wrapped)。
过滤法按照特定筛选标准进行特征筛选,去除那些不太可能对模型有用的特征。一般来说,过滤法的计算成本比下面两种方法要低很多。根据是否使用目标变量,可以将过滤法分为无监督过滤和有监督过滤两种。
嵌入法将特征选择自然地融入模型训练过程,即在模型训练过程中同时完成了特征选择。例如使用决策树模型进行预训练,决策树模型挑出的特征就是显著的特征。又例如L1和L2正则项可以添加到任意线性模型的训练中,施加正则项后模型将使用更少的特征,所以又称正则项为模型的稀疏性约束。
嵌入法将特征选择整合为模型训练的一部分,虽然不如包装法强大,但成本也远不如包装法那么高。与过滤技术相比,嵌入法可以遴出特别适合某模型的特征,从这个意义上说,嵌入法在计算成本和结果质量之间实现了平衡。
包装法通过统计模型或者机器学习模型来选择特征,相比其他方法而言,计算成本较高,但可以试验特征的各个子集,可以通过模型自动组合挖掘出更多有用特征,特别是单独看某特征并无特别强的预测能力,但通过模型训练,该特征与其他特征组合之后却具有较强预测能力。
根据是否使用目标变量,可以将包装法分为无监督和有监督两种。
print('今日春节')
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。