赞
踩
在逻辑回归分类中,我们评价分类器好坏的主要指标有精准率(precision),召回率(recall),F-measure,AUC等,其中最常用的是AUC,它可以综合评价分类器性能,其他的指标主要偏重一些方面。我们介绍下spark中实现的这些评价指标,便于使用spark训练模型后,对训练结果进行评估。
混淆矩阵(confusion matrix)用一张简单的表格,反应分类器对样本分类的情况
实际\预测 | 1 | 0 |
---|---|---|
1 | TP(True Positive) | FN(Flase Negtive) |
0 | FP(False Positive) | TN(True Negtive) |
0/1代表两类样本,下面解释下表格中的含义
不难看出,这个矩阵一条对角线上带T的是预测正确的样本(数量),另外一条对角线上带F的是预测错误的样本。
由这个矩阵,我们可以计算一系列衡量分类器性能的指标
( T P + T N ) / ( T P + F P + T N + F N ) (TP+TN)/(TP+FP+TN+FN) (TP+TN)/(TP+FP+TN+FN)
分类器分对的样本在总样本中的比例
T P / ( T P + F P ) ⋯ ( 1 ) TP/(TP+FP)\cdots(1) TP/(TP+FP)⋯(1)
真正的正样本在分类器分出的正样本中的比例
T P / ( T P + F N ) ⋯ ( 2 ) TP/(TP+FN)\cdots(2) TP/(TP+FN)⋯(2)
样本中正例被正确分类的比例
F P / ( F P + T N ) ⋯ ( 3 ) FP/(FP+TN)\cdots(3) FP/(FP+TN)⋯(3)
被错误分成正例的样本在实际负例样本中的比例
也称F-score,综合考虑precision和recall,经常用在信息检索中
F β = (
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。