赞
踩
评分卡可以用来预测客户的好坏。当一个评分卡已经构建完成,并且有一组个人分数和其对应的好坏状态的数据时,我们想知道所构建的评分卡是否可靠?可靠程度如何?而这取决于如何去定义这个“好”字。一般有三种角度可以来评估:
为了后面讨论简单,我们假设模型输出的是从0到1000的信用评分(用预测概率线性变换即可)。当选定好一个阈值 c 后,我们把分数 s 大于 c的判定为好人,小于 c 的判定为坏人。以我们在本系列第二篇文章中的结果为例,下图是好人/坏人的密度函数和对应的ROC曲线。
阈值的选取标准可以按照ROC曲线中的KS统计量来选取,也可以按照最大的 F1 分数来。这里我们选用第一种方法,可以得到了下面的混淆矩阵:
预测坏人 | 预测好人 | |
---|---|---|
实际坏人 | 440(2.6%) | 4373(25.5%) |
实际好人 | 379(2.2%) | 11990(69.8%) |
我们将从概率测度的角度来考虑分类学习器的评估。信用评分S是一个标准的随机变量, 令 f(s|G) 和 f(s|B) 分别是好人和坏人的条件概率密度函数,对应的分布函数依次是 F(s|G) 和F(s|B) 。当只有混淆矩阵时,S是离散的,在上面的例子中,对应的条件概率为:p(s=好人|G)=96.93%, p(s=坏人|G)=3.06%. 一个好的评分卡,其好人和坏人的条件概率分布之间的差异性肯定很大。
接下来我将从四个方面来评估分类学习器的性能
我们先从一般的分类学习器的性能度量开始,此时因为因变量的类别数可能大于2,所以更多的是分类的准确度上来考量的。
在预测任务中,给定样例集
其中 y_i 是示例 x_i 的真实标记。要评估学习器 f 的性能,就要把学习器预测结果 f(x) 与真实标记进行比较。
在回归任务中,最常用的性能度量是“均方误差”(mean squared eror,MSE)
在分类任务中,最常用的有错误率和精度。给定样例集D,分类错误率可以定义为:
精度则定义为
在评分模型中,精度的计算方法就是
假定农夫拉来一车西瓜,我们用训练好的模型对这些西瓜进行判别,显然,错误率衡量了有多少比例的瓜被判别错误。但是若我们关心的是“挑出的西瓜中有多少比例是好瓜”,或者“所有好瓜中有多少比例被挑了出来”,那么错误率显然就不够用了。
对于二分类问题,可将样本根据其真实类别与学习器预测类别的组合划分为真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四种情形。分类结果的 混淆矩阵 如下表所示:
预测正例 | 预测反例 | |
---|---|---|
实际正例 | TP(真正例) | FN(假反例) |
实际反例 | FP(假正例) | TN(真反例) |
我们将 准确率(P,查准率) 与 召回率(R,查全率) 分别定义如下
准确率和召回率是一对矛盾的度量。在垃圾邮件分类模型中,我们更加看重准确率,因为预测为垃圾邮件的实例中要尽可能少的出现正常邮件。而在生产线的次品判定模型中,我们更看重召回率,因为预测是正品的实例中要尽可能少的出现次品(这样需要召回的商品就少)。
将准确率作为y轴,召回率作为x轴,可以得到P-R曲线,其直观显示出分类学习期在样本集上的准确率、召回率。另外为综合考虑两个指标,我们有P和R的调和平均数,F1度量:
有时候要调整准确率或者召回率的权重,这时候可以用加权后的F1度量:
其中β>0度量了召回率相对准确率的重要性,β>1时召回率有更大影响。
注:相对于几何平均数和算术平均数,调和平均数更注重较小者,且当各平均数相等时,调和平均数对应的P和R之间的差值相对更小。
在本文的评分模型中,准确率=440/(440+379)=53.7%, 召回率=440/(440+4373)=9.1%,
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。