当前位置:   article > 正文

分类学习器的评估_kl divergence hellinger distance

kl divergence hellinger distance

评分卡可以用来预测客户的好坏。当一个评分卡已经构建完成,并且有一组个人分数和其对应的好坏状态的数据时,我们想知道所构建的评分卡是否可靠?可靠程度如何?而这取决于如何去定义这个“好”字。一般有三种角度可以来评估:

  • 评分卡分类划分的准确程度,如错误率、准确率、召回率、F1
  • 评分卡的判别能力,评估评分卡将好人和坏人分离开的程度,如KS统计量、ROC曲线、GINI系数
  • 评分卡概率预测的校准精度

为了后面讨论简单,我们假设模型输出的是从0到1000的信用评分(用预测概率线性变换即可)。当选定好一个阈值 c 后,我们把分数 s 大于 c的判定为好人,小于 c 的判定为坏人。以我们在本系列第二篇文章中的结果为例,下图是好人/坏人的密度函数和对应的ROC曲线

阈值的选取标准可以按照ROC曲线中的KS统计量来选取,也可以按照最大的 F1 分数来。这里我们选用第一种方法,可以得到了下面的混淆矩阵:

预测坏人 预测好人
实际坏人 440(2.6%) 4373(25.5%)
实际好人 379(2.2%) 11990(69.8%)

我们将从概率测度的角度来考虑分类学习器的评估。信用评分S是一个标准的随机变量, 令 f(s|G) 和 f(s|B) 分别是好人和坏人的条件概率密度函数,对应的分布函数依次是 F(s|G) 和F(s|B) 。当只有混淆矩阵时,S是离散的,在上面的例子中,对应的条件概率为:p(s=好人|G)=96.93%, p(s=坏人|G)=3.06%. 一个好的评分卡,其好人和坏人的条件概率分布之间的差异性肯定很大。

接下来我将从四个方面来评估分类学习器的性能

  • 一般的分类学习器的性能度量
  • 基于随机变量密度函数的评估
  • 基于随机变量分布函数的评估
  • 基于实验的估计方法

我们先从一般的分类学习器的性能度量开始,此时因为因变量的类别数可能大于2,所以更多的是分类的准确度上来考量的。

1、一般的分类学习器的性能度量

在预测任务中,给定样例集

D=[(x1,y1),(x2,y2),,(xm,ym)]

其中 y_i 是示例 x_i 的真实标记。要评估学习器 f 的性能,就要把学习器预测结果 f(x) 与真实标记进行比较。

在回归任务中,最常用的性能度量是“均方误差”(mean squared eror,MSE)

E(f;D)=D(f(x)y)2p(x)dx=1mi=1m(f(xi)yi)2

在分类任务中,最常用的有错误率和精度。给定样例集D,分类错误率可以定义为:

E(f;D)=DI(f(x)y)p(x)dx=1mi=1mI(f(xi)  yi)

精度则定义为

acc(f;D)=DI(f(x)=y)p(x)dx=1mi=1mI(f(xi) = yi)

在评分模型中,精度的计算方法就是

acc===

1.1 准确率、召回率与F1

假定农夫拉来一车西瓜,我们用训练好的模型对这些西瓜进行判别,显然,错误率衡量了有多少比例的瓜被判别错误。但是若我们关心的是“挑出的西瓜中有多少比例是好瓜”,或者“所有好瓜中有多少比例被挑了出来”,那么错误率显然就不够用了。

对于二分类问题,可将样本根据其真实类别与学习器预测类别的组合划分为真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)四种情形。分类结果的 混淆矩阵 如下表所示:

预测正例 预测反例
实际正例 TP(真正例) FN(假反例)
实际反例 FP(假正例) TN(真反例)

我们将 准确率(P,查准率)召回率(R,查全率) 分别定义如下

P=TPTP+FP

R=TPTP+FN

准确率和召回率是一对矛盾的度量。在垃圾邮件分类模型中,我们更加看重准确率,因为预测为垃圾邮件的实例中要尽可能少的出现正常邮件。而在生产线的次品判定模型中,我们更看重召回率,因为预测是正品的实例中要尽可能少的出现次品(这样需要召回的商品就少)。

将准确率作为y轴,召回率作为x轴,可以得到P-R曲线,其直观显示出分类学习期在样本集上的准确率、召回率。另外为综合考虑两个指标,我们有P和R的调和平均数,F1度量

F1=2×P×RP+R

有时候要调整准确率或者召回率的权重,这时候可以用加权后的F1度量

F1=(1+β)×P×Rβ×P+R

其中β>0度量了召回率相对准确率的重要性,β>1时召回率有更大影响。

注:相对于几何平均数和算术平均数,调和平均数更注重较小者,且当各平均数相等时,调和平均数对应的P和R之间的差值相对更小。

在本文的评分模型中,准确率=440/(440+379)=53.7%, 召回率=440/(440+4373)=9.1%,

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/270538
推荐阅读
相关标签
  

闽ICP备14008679号