当前位置:   article > 正文

python计算决策树误差_基于sklearn决策树的最优分箱与IV值计算-Python实现

python计算决策树模型均方误差csdn

一、问题描述:

在实际建模问题中,衍生加工许多特征变量之后,一般而言,首先需要对衍生变量的预测能力做一个快速、初步的评估。针对二分类问题,如信贷风险模型的好坏客户预测与评分,我们一般用IV值(Information Value)来衡量特征变量的预测能力,然后再筛选出IV值高于某个阈值的一篮子特征来进行下一步的建模工作。

为了计算某个变量的IV,首先需要对其进行分箱。如果强制变量分箱的WOE单调性,这样可能就会低估某些非线性变量的IV值,如U型变量。因此,为了尽可能使得IV值计算最大,同时尽可能保证分箱的单调性(让预测变量对目标变量有更好的解释性),我们利用决策树的信息增益最大化思想来实现变量的最优分箱。

注:本文主要讨论最优分箱与IV值计算的实现过程,对EDA分析、异常值处理等方面不做详细探讨。


二、实现思路:

  1. 利用sklearn决策树,DecisionTreeClassifier的.tree_属性获得决策树的节点划分值;
  2. 基于上述得到的划分值,利用pandas.cut函数对变量进行分箱;
  3. 计算各个分箱的WOE、IV值。

三、数据说明:

测试数据是kaggle案例的训练数据 - Give Me Some Credit;

Give Me Some Credit​www.kaggle.com

该案例数据总共有150000条样本,11个变量,其中1个目标变量,10个特征变量;

其中,目标变量为Se

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/177645
推荐阅读
相关标签
  

闽ICP备14008679号