赞
踩
本文转载自https://www.cnblogs.com/Hyacinth-Yuan/p/7905855.html
本文主要将逻辑回归的实现,模型的检验等
参考博文http://blog.csdn.net/tiaaaaa/article/details/58116346;http://blog.csdn.net/ai_vivi/article/details/43836641
1.测试集和训练集(3:7比例)数据来源:http://archive.ics.uci.edu/ml/datasets/statlog+(australian+credit+approval)
1 2 3 4 5 6 7 8 9 |
|
2. 逻辑回归的实现及预测
1 2 3 4 5 6 7 8 9 |
|
3.模型检验
1 2 3 4 5 6 7 8 9 10 11 12 |
|
4.准确率和精度
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 |
|
5. ROC曲线
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 |
|
6. 更换测试集和训练集的选取方式,采用十折交叉验证
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 |
|
7.十折交叉验证的准确度
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |
|
预测 | ||||
1 | 0 | |||
实 | 1 | True Positive(TP) | True Negative(TN) | Actual Positive(TP+TN) |
际 | 0 | False Positive(FP) | False Negative(FN) | Actual Negative(FP+FN) |
Predicted Positive(TP+FP) | Predicted Negative(TN+FN) | (TP+TN+FP+FN) |
AccuracyRate(准确率): (TP+TN)/(TP+TN+FN+FP)
ErrorRate(误分率): (FN+FP)/(TP+TN+FN+FP)
Recall(召回率,查全率,击中概率): TP/(TP+FN), 在所有GroundTruth为正样本中有多少被识别为正样本了;
Precision(查准率):TP/(TP+FP),在所有识别成正样本中有多少是真正的正样本;
TPR(True Positive Rate): TP/(TP+FN),实际就是Recall
FAR(False Acceptance Rate)或FPR(False Positive Rate):FP/(FP+TN), 错误接收率,误报率,在所有GroundTruth为负样本中有多少被识别为正样本了;
FRR(False Rejection Rate): FN/(TP+FN),错误拒绝率,拒真率,在所有GroundTruth为正样本中有多少被识别为负样本了,它等于1-Recall
横轴是FPR,纵轴是TPR;
每个阈值的识别结果对应一个点(FPR,TPR),当阈值最大时,所有样本都被识别成负样本,对应于左下角的点(0,0),当阈值最小时,所有样本都被识别成正样本,对应于右上角的点(1,1),随着阈值从最大变化到最小,TP和FP都逐渐增大;
一个好的分类模型应尽可能位于图像的左上角,而一个随机猜测模型应位于连接点(TPR=0,FPR=0)和(TPR=1,FPR=1)的主对角线上;
可以使用ROC曲线下方的面积AUC(AreaUnder roc Curve)值来度量算法好坏:如果模型是完美的,那么它的AUG = 1,如果模型是个简单的随机猜测模型,那么它的AUG = 0.5,如果一个模型好于另一个,则它的曲线下方面积相对较大;
ERR(Equal Error Rate,相等错误率):FAR和FRR是同一个算法系统的两个参数,把它放在同一个坐标中。FAR是随阈值增大而减小的,FRR是随阈值增大而增大的。因此它们一定有交点。这个点是在某个阈值下的FAR与FRR等值的点。习惯上用这一点的值来衡量算法的综合性能。对于一个更优的指纹算法,希望在相同阈值情况下,FAR和FRR都越小越好。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。