当前位置:   article > 正文

信贷风控技术十分钟精通7(特征选择和降维)

信贷风控技术十分钟精通7(特征选择和降维)

特征提取与生成之后,可以得到大量特征,但并非所有的特征都有很强的预测能力,而且特征与特征之间存在一定的相关性,在正式建模之前需要对特征进行选择和降维。

特征评价

进行特征选择需要有明确的、具备可操作性的特征评价标准,以此评价标准作为特征选择的依据,常见的评价标准如下

业务角度

  • (1)数据合规性
    • 数据合规性是特征评价的基础要求,使用变量必须合法合规,不侵犯隐私和信息安全,在欧美国家,建立评分卡不得使用性别、宗教、种族、政治倾向等信息。
  • (2)变量可获得性
    • 变量是否可以被采集,不仅要考虑当前建模时点,还需要考虑未来上线应用时点,例如因为数据隐私政策和数据安全政策规定,导致未来不能再获得的数据,则不建议使用。
  • (3)变量可解释性
    • 变量是否具备较强的易理解性,是否和预测目标有较强的关联性(最好是具备因果关系)。
  • (4)变量的趋势是否和业务理解一致
    • 该标准属于变量可解释性,但因为太重要,这里单列以示强调。业务理解的特征趋势需要和数据统计显示的趋势保持一致。
  • (5)其他特殊因素
    • 例如账龄变量是一个比较有争议的特征,从业务含义上看,账龄本身与风险具有相关性(一般来说账龄越长越好),但如果将该变量放入模型,有可能因为特定时间点市场营销活动带来大量进件,导致变量PSI变化较大。

通常金额类变量慎用,原因是有些金额类变量例如收入,会随着通货膨胀而逐渐漂移,同时,收入变量通常具有地区差异性,也不具备可比性。

数据角度

数据角度是从数据本身的分布特征出发,对特征质量进行评价,包括如下内容

  • (1)变量的缺失率、集中度、波动性等
    • 这几方面特征相互有关联,缺失率高的特征自然集中度也高(集中取值为Missing),集中度高的变量信息熵低。通常变量缺失率不应过高,需要注意的是,不能简单地认为缺失率高的变量就不好,缺失率和预测力没有必然关系。首先需要确定缺失原因,因为变量缺失是可以根据数据处理规则进行填充的,填充后的缺失率不能反映真实的缺失情况,另外如果前端设置了默认值,则该默认值可能与缺失值具有相同的业务含义。其次如果缺失率高,同时IV也高,极端情况例如非缺失值都是坏样本,则该变量具有较强预测力是好的特征,所以需要结合IV来看,如果IV低并且缺失率高,则不是好特征。
    • 一般来说,集中度过高的变量,通常变量信息值(Information Value,IV)会比较低。需要注意,不能简单地认为集中度高的变量就不好,也需要看集中的值对于预测力有没有帮助。波动性是指变量取值有变化,如果变量“波澜不惊”,则包含的信息有限,但是这并不意味着波动率大的变量就比波动率小的好,因为变量尺度会影响波动率,一般可使用变异系数(标准差/均值)来衡量。需要注意的是,对于线性模型而言,变异系数也不能完全客观地反映变量质量,因为通过变量平移,模型中该特征的预测力并不会改变,但变异系数会改变。波动性只是一个参考因素,是一个相对性的参照指标,没有绝对意义。
  • (2)变量时间稳定性
    • 衡量变量分布稳定性通常使用PSI(Population Stable Index,稳定度指标),一般认为PSI ≥0.25即表明特征分布已发生较大变化。
    • 需要注意,避免片面理解PSI指标,是否PSI≥0.25就一定意味着模型预测力下降?答案是“否”,PSI变化与模型预测力没有必然的关系,原因在于预测模型本质上是条件概率密度估计 P(Y=yX),条件概率密度是假定X给定的前提下对Y的概率估计,与X本身的分布并没有直接关系。
  • (3)变量的预测力
    • 计算IV指标,一般认为IV≥0.02的特征具有预测力。

模型角度

通过预测类模型,例如通过判别分析、随机森林等筛选出预测力强的变量,或者使用XGBoost或LightGBM模型可以直接得到特征重要性,即模型训练后直接读取模型对象的importance 属性即可。

特征选择与降维

特征选择是从特征清单中按照特征评价标准选出真子集。特征选择技术可精简无用特征,在不显著影响预测准确率的情况下,降低最终模型的复杂性,其目的是得到一个简约模型。

特征降维与特征选择类似但稍有差别,特征选择是从特征清单中选出真子集,而特征降维除了可以通过特征选择来实现,也可以通过特征组合实现,即通过模型进行特征组合计算,得到若干低维组合特征变量。特征降维的目的是将原始特征从高维空间压缩到低维空间,并且最大限度保持空间内部结构(样本分布方差、向量距离、向量内积等)。

虽然从定义概念上讲,特征降维和特征选择有差异,但大多数情况下,从实际应用的角度看,不用明确区分特征选择和特征降维。特征选择和降维主要有三类方法:过滤法(Filtering)、嵌入法(Embedded)、包装法(Wrapped)。

过滤法

过滤法按照特定筛选标准进行特征筛选,去除那些不太可能对模型有用的特征。一般来说,过滤法的计算成本比下面两种方法要低很多。根据是否使用目标变量,可以将过滤法分为无监督过滤和有监督过滤两种。

  • (1)无监督过滤,无监督过滤不需要使用目标变量Y,仅基于变量本身的特征进行变量选择。
    • 1)特征缺失率或集中度高于阈值时过滤。
    • 2)变量方差波动小于阈值时过滤。
    • 3)PSI时点稳定性大于阈值时过滤。
    • 4)变量两两相关系数大于阈值时过滤。
  • (2)有监督过滤,有监督过滤需要使用目标变量Y,选择的结果对于预测目标有直接相关性。
    • 1)变量 WOE趋势不单调时过滤。
    • 2)变量IV值低于某阈值时过滤。
嵌入法

嵌入法将特征选择自然地融入模型训练过程,即在模型训练过程中同时完成了特征选择。例如使用决策树模型进行预训练,决策树模型挑出的特征就是显著的特征。又例如L1和L2正则项可以添加到任意线性模型的训练中,施加正则项后模型将使用更少的特征,所以又称正则项为模型的稀疏性约束。

嵌入法将特征选择整合为模型训练的一部分,虽然不如包装法强大,但成本也远不如包装法那么高。与过滤技术相比,嵌入法可以遴出特别适合某模型的特征,从这个意义上说,嵌入法在计算成本和结果质量之间实现了平衡。

包装法

包装法通过统计模型或者机器学习模型来选择特征,相比其他方法而言,计算成本较高,但可以试验特征的各个子集,可以通过模型自动组合挖掘出更多有用特征,特别是单独看某特征并无特别强的预测能力,但通过模型训练,该特征与其他特征组合之后却具有较强预测能力。

根据是否使用目标变量,可以将包装法分为无监督和有监督两种。

  • (1)无监督方式
    • 使用因子分析(FA)、主成分分析(PCA)、独立成分分析(ICA)、多维尺度规约(MDS)、非负矩阵分解(NMF)、变量聚类等,以及基于深度学习自编码器等无监督方式,可以实现特征降维和特征选择。
  • (2)有监督方式
    • 使用有监督的机器学习模型,例如:决策树、随机森、线性判别分析(LDA)、二次判别分析(QDA)等,自动筛选出更有区分能力的特征变量。

print('今日春节')

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/465617
推荐阅读
相关标签
  

闽ICP备14008679号