赞
踩
风控评分模型篇
by dylanfan at 2015-2-11
余额支付的风险识别模型分为两类:(1)盗号交易识别风险 和 (2)盗卡交易识别风险。其中盗卡交易识别风险和余额有关主要是由于骗子注册号码帮盗来的卡,然后进行充值到余额,通过余额支付销赃。(1)和(2)两种针对的情景不一样,采用的特征变量和变量的重要性很大程度是不一样的。针对(1)的问题,主要是看当前交易相对用户之前的行为是否存在异常。针对(2)的问题,主要看用户信息和绑卡的信息匹配的一致性,可信性,以及当前账号的可信度。
在整体篇,提到风险识别领域采用的常规的方法是专家规则系列和模型系列。规则体系中每个规则针更多对单一风险场景和问题来制定的,偏重精准性和稍微兼顾覆盖率。模型系列更加覆盖率,模型不断学习来增加识别各种风险场景的能力。模型的一个好处就是可以不断学习,对各种风险场景可以有个统一的量化评估,比如0-100分。如果一个风控团队想对外输出风控能力,一个必备的能力,就是必须对外输出风险评分,决策层让客户自己做,而不是直接输出拒绝,还是放过。这篇,我主要谈谈关于盗号的风控模型:余额支付盗号交易识别的风险评分模型。主要围绕图1展开:
风险评分模型可以看成一个二分类问题,就是设计个模型能把好的交易样本和坏的交易样本尽可能区分出来。做风险评分模型这个项目前,先得积累足够多的数据(样本和特征),不然真是巧妇难为无米之炊。所以,系统需要有套收集数据的机制,尤其是坏样本的数据收集机制。对于交易而言,可以以订单号来标记一条样本,样本由多个特征变量组成,这些特征变量基本可以包含交易维度的变量,交易双方的特征变量等。首先,系统需记录整体交易这些相关的数据。然后,通过人工标记坏样本的方式来记录坏样本订单号,在支付领域坏样本人工标记方式可以通过用户报损反馈,也可以是人工通过相关黑信息关联找出来的标记样本。系统设计是尽可能多的和并且尽可能精准的的收集到坏样本。对于好样本,如果样本特征变量中不包含某些周期性变量,可以负采样过去几天的交易样本,最好有距离目前时间一周以上的时间间隔,方便用户反馈,从里面剔除坏样本和某些设定规则下的过滤的样本(存在异常样本和没有报损的样本)。
在风控建模领域,一个典型的问题就是样本有偏。举个例子说明:假如你发现骗子符合某些聚集特征,你指定策略1进行打击后,骗子的这种欺诈手段被控制,以后的损失案例都不具备这样的聚集特征。如果你的坏样本的收集时间在策略1上线之后,这个时候模型训练的结果极有可能出现满足聚集特征的风险低,不满足聚集特征的交易反而风险高,也就是说聚集特征的权重是负数。这时候模型的解释性出了问题,这个也是模型训练中一个过拟合问题的范畴。为了有效解决这个问题,可以根据业务经验来查看模型中变量的权重是否与经验相悖,如果相悖,需要仔细评估。对于是样本有偏带来的问题,可以通过重新加入符合某些条件的样本来弥补。对于这些弥补的样本获取方法一种可以从拦截样本中选择,一个可以根据经验来人工生成样本。
谈谈模型的不平衡学习。风控模型学习是个典型的不平衡学习问题,他同时具备不平衡学习领域两个问题:(1)正负样本比率悬殊,但是正负类样本都足够多;(
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。