赞
踩
在金融场景中,IV值是一个经常用来衡量特征强弱的指标。IV值如果比较大,说明该特征的区分度比较强,如果IV值比较小则说明特征的区分度比较弱。正因为有该性质,所以IV值经常用来进行特征选择。
在介绍IV值之前,需要先介绍一下WOE
WOE, Weight Of Evidence,直译过来就是证据权重。WOE是对原始变量的一种编码方式。计算的具体步骤主要包括两步
1.对变量分组,一般的方式为分箱或者离散化处理。比如常见的分箱方法有等频分箱,等高分箱等。
2.分箱以后,对于第i组,计算该组的woe(i)值。
w
o
e
i
=
l
n
(
p
y
i
p
n
i
)
=
l
n
(
y
i
/
y
s
n
i
/
n
s
)
woe_i = ln(\frac{p_{yi}}{p_{ni}}) = ln(\frac{y_i/y_s}{n_i/n_s})
woei=ln(pnipyi)=ln(ni/nsyi/ys)
其中,
y
i
y_i
yi表示分组中的响应用户,
y
s
y_s
ys表示总响应用户。
n
i
n_i
ni表示分组中的未响应用户,
n
s
n_s
ns表示总未响应用户。
IV衡量的是某一个变量的信息量。 对于分组i的IV值,具体的计算公式如下
I
V
i
=
(
p
y
i
−
p
n
i
)
∗
w
o
e
i
=
(
p
y
i
−
p
n
i
)
∗
l
n
(
p
y
i
p
n
i
)
=
(
y
i
/
y
s
−
n
i
/
n
s
)
∗
l
n
(
y
i
/
y
s
n
i
/
n
s
)
那么整个变量的IV值为
I
V
=
∑
i
n
I
V
i
IV = \sum_i^n IV_i
IV=i∑nIVi
WOE 和 IV 都能表达某个分组对目标变量的预测能力。那为什么我们实际使用的都是IV而不是WOE呢?
1.WOE有可能是负值,而IV值永远为正,实际场景中我们不太可能使用一个可能为负值的指标。
2.
p
y
i
−
p
n
i
p_{yi} - p_{ni}
pyi−pni这个数值,体现了当前分组样本在整体中的占比,相当于给当前样本的区分能力乘以了一个权重。这个权重越大,对应的区分度也就越高,对整体的贡献也就越突出。
1.IV值并不是越大越好。IV过大,很可能是分箱不当所引起的,这个时候需要对数据进行重新分箱操作。
2.如果按照原始的公式进行计算,分箱操作时,某个组的数据不能为0,否则做除法运算时会触发异常。
3.实际项目操作过程中,一般选择0.2作为阈值。如果某个特征的IV值小于0.2,说明区分度不太够,该特征不予采用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。