当前位置:   article > 正文

风控特征—时间滑窗统计特征体系_风控观察期和表现期

风控观察期和表现期

风控特征时间滑窗统计特征体系

风控业务背景

俗话说,路遥知马力,日久见人心。在风控中也是如此,我们常从时间维度提取借款人在不同时间点的特征,以此来判断借款人的风险。在实践中,这类特征通常会占到 80% 以上。由于是通过时间切片和聚合统计函数来构造,因此一般被称为时间滑窗统计特征。

本文的主要意义在于:

  • 对于需要入门风控建模的同学而言,希望能帮助你快速上手特征工程。
  • 对已经有特征工程经验的同学而言,希望能带给你一些风控业务理解。

目录
Part 1. 观察期、观察点及表现期
Part 2. RFM 模型介绍
Part 3. 时间滑窗数量统计类特征
Part 4. 时间滑窗占比统计类特征
Part 5. 时间滑窗趋势统计类特征
Part 6. 时间滑窗稳定性衍生特征
Part 7. 第三方多头借贷变量衍生
Part 8. 总结
 

Part 1. 观察期、观察点及表现期

理解这三者的概念是风控建模前期样本准备的基础,在此简单介绍。

  • 观察点(Observation Point:并非是一个具体的时间点,而是一个时间区间,表示的是客户申请贷款的时间。在该时间段申请的客户可能会是我们用来建模的样本 。(提示:为什么用“可能”这个描述,因为还需剔除一些强规则命中的异常样本,这部分样本将不会加入建模)
  • 观察期(Observation Window):用以构造特征 X 的时间窗口。相对于观察点而言,是历史时间。观察期的选择依赖于用户数据的厚薄程度。通常数据越厚,可提取的信息也就越全面、可靠。
  • 表现期 (Performance Window):定义好坏标签 Y 的时间窗口。相对于观察点而言,是未来 时间。由于风险需要有一定时间窗才能表现出来,因此信贷风险具有滞后性。表现期的长短可以通过 Vintage 分析和滚动率分析来确定,在此不做展开。

1 - 观察期、观察点及表现期

表现期越长,信用风险暴露将越彻底,但意味着观察期离当前将越远,用以提取样本特征的历史数据将越陈旧,建模样本和未来样本的差异也越大。反之,表现期越短,风险还未暴露完全,但好处是能用到更近的样本。

Part 2. RFM 模型介绍

RFM 模型最早是用来衡量客户价值和客户创利能力。理解 RFM 框架的思想是构造统计类特征的基础,其含义为:

  • RRecency:客户最近一次交易消费时间的间隔。R 值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。
  • FFrequency:客户在最近一段时间内交易消费的次数。F 值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。
  • MMonetary:客户在最近一段时间内交易消费的金额。M 值越大,表示客户价值越高,反之则表示客户价值越低。

Part 3. 时间滑窗数量统计类特征

对于不同数据源,我们可以统计得到不同内容的 RFM 特征。例如:

  • 运营商数据:用户每天的通话记录次数、时长等。
  • 信用卡账单或电商交易数据:用户每天的交易笔数、金额等。
  • 埋点行为数据:用户每天在某页面的浏览量、点击量等。
  • 设备数据:用户每天的登陆、活跃次数。

为了扩展更多的维度,我们常会维护一个分类名单库(或分类指标体系),可参考《信贷风控中的名单库挖掘、使用和维护》。接下来,我们就可以继续细分类目来统计。例如:

  • 信用卡交易数据:用户每天在母婴用品、交通出行、餐饮、美容美发等交易笔数、金额。
  • 设备 App 数据:用户手机上安装的借贷类、生活类、运动类、音乐类等 App 的数量。

以设备 App 数据为例,我们将统计得到如下数据:

2 - 截止下单日,用户每天统计的 App 数量

需要指出的是,我们需要结合业务去分析数据,数据因为业务才具有温度

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/544043
推荐阅读
相关标签