赞
踩
风控特征—时间滑窗统计特征体系
风控业务背景
俗话说,路遥知马力,日久见人心。在风控中也是如此,我们常从时间维度提取借款人在不同时间点的特征,以此来判断借款人的风险。在实践中,这类特征通常会占到 80% 以上。由于是通过时间切片和聚合统计函数来构造,因此一般被称为时间滑窗统计特征。
本文的主要意义在于:
目录
Part 1. 观察期、观察点及表现期
Part 2. RFM 模型介绍
Part 3. 时间滑窗数量统计类特征
Part 4. 时间滑窗占比统计类特征
Part 5. 时间滑窗趋势统计类特征
Part 6. 时间滑窗稳定性衍生特征
Part 7. 第三方多头借贷变量衍生
Part 8. 总结
Part 1. 观察期、观察点及表现期
理解这三者的概念是风控建模前期样本准备的基础,在此简单介绍。
图 1 - 观察期、观察点及表现期
表现期越长,信用风险暴露将越彻底,但意味着观察期离当前将越远,用以提取样本特征的历史数据将越陈旧,建模样本和未来样本的差异也越大。反之,表现期越短,风险还未暴露完全,但好处是能用到更近的样本。
Part 2. RFM 模型介绍
RFM 模型最早是用来衡量客户价值和客户创利能力。理解 RFM 框架的思想是构造统计类特征的基础,其含义为:
Part 3. 时间滑窗数量统计类特征
对于不同数据源,我们可以统计得到不同内容的 RFM 特征。例如:
为了扩展更多的维度,我们常会维护一个分类名单库(或分类指标体系),可参考《信贷风控中的名单库挖掘、使用和维护》。接下来,我们就可以继续细分类目来统计。例如:
以设备 App 数据为例,我们将统计得到如下数据:
图 2 - 截止下单日,用户每天统计的 App 数量
需要指出的是,我们需要结合业务去分析数据,数据因为业务才具有温度。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。