赞
踩
在实际的评分卡开发中,会出现样本不均衡问题,比如违约样本远少于不违约样本,,通常将少数样本(坏样本)定义为正样本,多数样本(好样本)定义为负样本。要求模型对正负样本均有较好的区分能力,但样本不均衡的情况下则很难实现。样本不均衡会在特征选择,模型训练,评估指标等环节均产生严重影响,降低模型性能。
本文依次从数据层,算法层和模型评估层介绍样本不均衡的处理方法。
自助法抽样(Bootstrap Sampling):有放回的抓取m个多数样本,与少数样本构成训练子集。
考虑样本分布上的相互影响,根据距离策略选择不同区域的采样过程。
i)NearMiss_1: 从局部范围出发实现下采样过程
ii)NearMiss_2: 从全局范围出发实现下采样过程
iii)NearMiss_3: 保证正样本与多个负样本关联
上面是选择最好的区域完成建模,而本方法则是通过剔除易混叠样本完成下采样过程。
i)清理Tomek Links法
如下图对于每一个正样本,寻找一个负样本,使两个样本构成Tomek-Links对,其中A,B,C均为边界对,D,E为噪声对,对于边界对,删除负样本可以使分类边界更清晰,对于噪声对,则要将正负样本都剔除,以提升分类效果。
ii)ENN(Edited Nearest Neighbor rule)算法
该算法在清理Tomek Links方法基础上,把最近邻变成3近邻,对于每一个负样本,周围的三个样本,如果有2个以上为正样本,通过投票选择方式,将该负样本剔除,该方法一般用来清理正样本中的噪声点或异常点。
代表性方法如 EasyEnsemble方法,该方法通过自助采样法(bootstrap sampling)有放回的随机抓取n个负样本,与正样本构成一个数据子集,通过构造m个这样的数据子集,训练m个分类器,最后的预测结果为这m个预测结果的加权求和。
串行的训练m个分类器,对于分类器当前的分类结果,在下次分类时,对分错的样本给予更高的权重,增加错分样本的关注度,通过m次训练,即可得到效果更好的分类规则。代表方法如 ‘BalanceCascade’方法:
该方法用训练得到的模型,对多数样本进行预测,每次将分类正确的样本移出训练集,错分样本保留作为下一次的候选集,在该候选集选取均等的适量的负样本,与正样本构成下一个训练子集,直到错分的样本少于少数样本为止。
在考虑样本邻域的前提下,在少数样本与其邻域样本构成的集合中,进行随机线性插值,得到上采样的样本。但是要注意,离散变量的上采样差值可能无意义,比如:{男:1, 女:0},差值0.6就没有实际意义,因此需要变量编码。
特点:该方法增加了少数样本的多样性,相比随机上采样,不易过拟合,增加少数样本泛化能力,但减少了多数样本泛化空间,模型在多数样本的表现会降低。
SMOTE方法是一种无监督方式,没有过多考虑样本邻域中每个样本的类别关系,在Tomek-Links方法的图中,我们将样本分为安全样本,边界样本,噪声样本,如果在安全样本中生成新样本会冗余,在噪声样本中生成新样本,会降低模型分类性能,本方法找到边界样本,然后按照SMOTE方法生成少数样本,提升模型在边界处的分类性能。
每个机器学习模型都有自己的损失函数,代价敏感学习思想是每个样本预测错误对模型的损失函数造成的结果不一样,少数样本预测错误会加大惩罚,最终模型就会更多的关注少数样本,权重的设置可以作为超参数,通过网格搜索找到最优参数。
通过采用一些能反映不均衡特性的指标来衡量模型效果,如Recall,Precision,F1,AUC等。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。