当前位置:   article > 正文

【机器学习基础】IV和WOE值

woe值

目录

一 WOE

1.1 概念

1.2 样例

二 IV

2.1 概念

2.2 样例

三 参考材料


IV和WOE通常是用在对模型的特征筛选,在模型刚建立时,选择的变量往往比较多,这个时候就需要有一种方法来帮助我们衡量什么变量应该进入模型什么变量应该舍弃,IV和WOE就可以帮助我们进行衡量。对于一个变量来说,我们考虑该变量是否可以加入预测一般可以考虑以下五个因素:(1)变量的预测能力(2)变量的鲁棒性(3)变量在业务上的可解释性(4)变量的生成难度(5)变量之间的相关性。

对于上述的第一点,就可以用IV和WOE值来进行判断,值越大就表示预测能力越强。计算WOE和IV是评分卡模型的一个重要环节,比如判断用户收入对用户是否会发生逾期的预测强度。这两个值有两个方面的应用:

           1.指导变量离散化。在建模过程中,时常需要对连续变量进行离散化处理,如将年龄进行分段。但是变量不同的离散化结果(如:年龄分为[0-20]还是[0-15])会对模型产生不同影响。因此,可以根据指标所反应的预测强度,调整变量离散化结果。(对一些取值很多的分类变量,在需要时也可以对其进行再分组,实现降维。)

           2.变量筛选。我们需要选取比较重要的变量加入模型,预测强度可以作为我们判断变量是否重要的一个依据。

接下来看看WOE和IV的计算方法。

一 WOE

1.1 概念

WOE(Weight Of Evidence)用来衡量变量的预测强度,要使用WOE的话,首先要对变量进行分箱,分箱之后,对于其中第i组的WOE值公式如下:

                                                      WOEi=lnpyipni=ln#yi/#yr#ni/#nr

其中,pyi表示表示该组中的正例占该组的比例,pni表示整体的正例占总样本的比例。

1.2 样例

下面用一个例子(该样例取自第三篇参考材料)来说明具体的步骤:

假设现在某个公司举行一个活动,在举行这个活动之前,先在小范围的客户中进行了一次试点,收集了一些用户对这次活动的一些响应,然后希望通过这些数据,去构造一个模型,预测如果举行这次的活动,是否能够得到很好的响应或者得到客户的响应概率之类。

假设我们已经从公司客户列表中随机抽取了100000个客户进行了营销活动测试,收集了这些客户的响应结果,作为我们的建模数据集,其中响应的客户有10000个。另外假设我们也已经提取到了这些客户的一些变量,作为我们模型的候选变量集,这些变量包括以下这些:

  • 最近一个月是否有购买;

  • 最近一次购买金额;

  • 最近一笔购买的商品类别;

  • 是否是公司VIP客户;

假设,我们已经对这些变量进行了离散化,统计的结果如下面几张表所示。

(1) 最近一个月是否有过购买:

(2) 最近一次购买金额:

(3) 最近一笔购买的商品类别:

(4) 是否是公司VIP客户:

我们以其中的一个变量“最近一次购买金额”变量为例:

我们把这个变量离散化为了4个分段:<100元,[100,200),[200,500),>=500元。首先,根据WOE计算公式,这四个分段的WOE分别为:

通过上述表格中的WOE结果,我们可以对这个结果的正负值做一个分析,直观的来看,根据ln函数的特性,就是当这个组中响应样本的比例比总体的响应比例小时为负数,相等时为0,大于时为正数。

有了上述的结果之后,我们可以把这个变量的所有分组的WOE值的绝对值加起来,这个可以在一定程度上表示这个变量的预测能力,但是我们一般的时候不会这么做,因为对于分组中的样本数量相差悬殊的场景,WOE值可能不能很好的表示出这个变量的预测能力,我们一般会用到另一个值:IV值。这个值在计算的时候,比WOE值多考虑了一层该变量下该分组占该变量下所有样本的比例。

二 IV

2.1 概念

IV值的计算公式是在WOE的基础上多乘了一个(pyipni),还记得pyi是表示该变量的该组中响应的样本占该组样本的比例,pni表示该变量所有响应样本占该变量所有样本的比例。

2.2 样例

还是继续上面的例子,我们在计算出WOE值之后,其实计算IV值就会简单很多了,接下来把“最后一次购买金额”这个变量的各个分组的IV值都计算出来

把上面的IV1,IV2,IV3,IV4加起来,就是这个变量的IV值,然后把所有变量的IV值都算出来,就可以根据IV值的大小来看出变量的预测能力。

三 参考材料

1. WOE与IV值

2. 用IV和WOE来做特征筛选

3.数据挖掘模型中的IV和WOE详解

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号