当前位置:   article > 正文

python计算IV值及使用

python ivlist 计算

更多风控建模、大数据分析等内容请关注公众号《大数据风控的一点一滴》

在对变量分箱后,需要计算变量的重要性,IV是评估变量区分度或重要性的统计量之一,python计算IV值的代码如下:

  1. def CalcIV(Xvar, Yvar):
  2. N_0 = np.sum(Yvar==0)
  3. N_1 = np.sum(Yvar==1)
  4. N_0_group = np.zeros(np.unique(Xvar).shape)
  5. N_1_group = np.zeros(np.unique(Xvar).shape)
  6. for i in range(len(np.unique(Xvar))):
  7. N_0_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 0)].count()
  8. N_1_group[i] = Yvar[(Xvar == np.unique(Xvar)[i]) & (Yvar == 1)].count()
  9. iv = np.sum((N_0_group/N_0 - N_1_group/N_1) * np.log((N_0_group/N_0)/(N_1_group/N_1)))
  10. return iv
  11. def caliv_batch(df, Kvar, Yvar):
  12. df_Xvar = df.drop([Kvar, Yvar], axis=1)
  13. ivlist = []
  14. for col in df_Xvar.columns:
  15. iv = CalcIV(df[col], df[Yvar])
  16. ivlist.append(iv)
  17. names = list(df_Xvar.columns)
  18. iv_df = pd.DataFrame({'Var': names, 'Iv': ivlist}, columns=['Var', 'Iv'])
  19. return iv_df

其中,df是分箱后的数据集,Kvar是主键,Yvar是y变量(0是好,1是坏)。代码运行结果如下:
python计算IV值及使用

转载于:https://blog.51cto.com/6093943/2120626

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/177698?site=
推荐阅读
相关标签
  

闽ICP备14008679号