当前位置:   article > 正文

【模型评估】Python混淆矩阵、FP、FN、TP、TN、ROC,FROC,mAP、Precision,召回率(Recall),准确率(Accuracy),F1 score详述与实现_python 混淆矩阵

python 混淆矩阵

目录

一、FP、FN、TP、TN

二、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1score

2.1、准确率(Accuracy)

2.2、召回率(Recall)

2.3、精确率(Precision)

2.4、敏感度、特异度、假阳性率、阳性预测值、阴性预测值

2.5、F1score

三、绘制ROC曲线,及计算以上评价参数

3.1、什么是ROC

3.2、绘制二分类ROC

四、更普遍的方法,绘制ROC

五、多分类的ROC曲线

六、FROC拓展

七、MedCalc统计软件绘制ROC

八、AUC值

九、mAP

​​​​​​在对模型性能进行评估的时候,经常会遇到各种各样的新名词,这里面就包括了混淆矩阵、ROC、AUC等等的名词。本文就对常用的评价参数进行了罗列和实现绘制,方便使用。系列文章链接如下:

一、FP、FN、TP、TN

你这蠢货,是不是又把酸葡萄和葡萄酸弄“混淆“”啦!!!这里的混淆,我们细品。

上面日常情况中的混淆就是:是否把某两件东西或者多件东西给弄混了,迷糊了。

在机器学习中, 混淆矩阵是一个误差矩阵, 常用来可视化地评估监督学习算法的性能.。混淆矩阵大小为 (n_classes, n_classes) 的方阵, 其中 n_classes 表示类的数量。

其中,这个矩阵的一行表示预测类中的实例(可以理解为模型预测输出,predict, PD),另一列表示对该预测结果对应的标签(Ground Truth, GT)进行判定模型的预测结果是否正确,正确为True,反之为False。

此时,就引入FP、FN、TP、TN与精确率(Precision),召回率(Recall),准确率(Accuracy)等等评价方式,我们在后面详述。

以猫狗二分类为例,假定

  1. cat为正例1-Positive1dog为正例2-Positive2,其他为负例-Negative
  2. 预测正确为True,反之,预测错误为False
  3. 我们针对cat或dog,就可以得到下面这样一个表示FP、FN、TP、TN的表:

 在计算混淆矩阵的时候,我们可以使用 scikit-learn 科学计算包,计算混淆矩阵函数 sklearn.metrics.confusion_matrix API 接口,可以快速帮助我们绘制混淆矩阵。接口定义如下:

  1. skearn.metrics.confusion_matrix(
  2. y_true, # array, Gound true (correct) target values
  3. y_pred, # array, Estimated targets as returned by a classifier
  4. labels=None, # array, List of labels to index the matrix.
  5. sample_weight=None # array-like of shape = [n_samples], Optional sample weights
  6. )

完整示例代码如下:

  1. __author__ = "lingjun"
  2. # E-mail: 1763469890@qq.com
  3. import seaborn as sns
  4. from sklearn.metrics import confusion_matrix
  5. import matplotlib.pyplot as plt
  6. sns.set()
  7. f, (ax1,ax2) = plt.subplots(figsize = (10, 8),nrows=2)
  8. y_true = ["dog", "dog", "dog", "cat", "cat", "cat", "cat"]
  9. y_pred = ["cat", "cat", "dog", "cat", "cat", "cat", "cat"]
  10. C2= confusion_matrix(y_true, y_pred, labels=["dog", "cat"])
  11. print(C2)
  12. print(C2.ravel())
  13. sns.heatmap(C2,annot=True)
  14. ax2.set_title('sns_heatmap_confusion_matrix')
  15. ax2.set_xlabel('Pred')
  16. ax2.set_ylabel('True')
  17. f.savefig('sns_heatmap_confusion_matrix.jpg', bbox_inches='tight')

 保存的图像如下所示:

这个时候我们还是不知道skearn.metrics.confusion_matrix做了些什么,这个时候print(C2),打印看下C2究竟里面包含着什么。最终的打印结果如下所示:

  1. [[1 2]
  2. [0 4]]
  3. [1 2 0 4]

解释下上面这几个数字的意思:

  1. C2= confusion_matrix(y_true, y_pred, labels=["dog", "cat"])中的labels的顺序就分布是01,negative和positive
  2. 注:labels=[]可加可不加,不加情况下会自动识别,自己定义

在计算cat的混淆矩阵的时候,cat就是阳性,dog和其他,就是阴性,如下面这样: 

  • cat为1-positive,其中真实值中cat有4个,4个被预测为cat,预测正确T,0个被预测为dog,预测错误F;
  • dog为0-negative,其中真实值中dog有3个,1个被预测为dog,预测正确T,2个被预测为cat,预测错误F。

定义:

  • TP:正确的预测为正例,也就是预测为正例,预测对了
  • TN:正确的预测为反例,也就是预测为反例,预测对了
  • FP:错误的预测为正例,也就是预测为正例,预测错了
  • FN:预测的预测为反例,也就是预测为反例,预测错了

所以:在分别以狗dog和猫cat为正例,预测错位为反例中,会分别得到如下两个混淆矩阵:

  1. dog-1,其他为0:
  2. y_true = ["1", "1", "1", "0", "0", "0", "0"]
  3. y_pred = ["0", "0", "1", "0", "0", "0", "0"]
  4. TP:1
  5. TN:4
  6. FP:0
  7. FN:2
  8. cat-1,其他为0:
  9. y_true = ["0", "0", "0", "1", "1", "1", "1"]
  10. y_pred = ["1", "1", "0", "1", "1", "1", "1"]
  11. TP:4
  12. TN:1
  13. FP:2
  14. FN:0

注意:混淆矩阵是评价某一模型预测结果好坏的方法,预测对与错的参照标准是标注结果。其中,需要对预测置信度进行阈值分割。

  • 大于该阈值的,为预测阳性
  • 小于该阈值的,为预测阴性 

所以,确定该类的阈值是多少,很重要,直接决定了混淆矩阵的数值分布。其中,该阈值可根据ROC曲线进行确定,这块下文会详述,继续往后看。

从这里就可以看出,混淆矩阵的衡量是很片面的,依据混淆矩阵计算的精确率、召回率、准确率等等评价方法,也是很片面的。这就是他们的缺点,需要一个更加全面的评价指标的出现。


二、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1score

有了上面的这些混淆矩阵的数值,就可以进行如下准确率、精确率、召回率、F1score等等评价指标的的计算工作了

2.1、准确率(Accuracy)

这三个指标里最直观的就是准确率: 模型判断正确的数据(TP+TN)占总数据的比例

"Accuracy: "+str(round((tp+tn)/(tp+fp+fn+tn), 3))

2.2、召回率(Recall)

针对数据集中的所有正例label(TP+FN)而言,模型正确判断出的正例(TP)占数据集中所有正例的比例FN表示被模型误认为是负例但实际是正例的数据

召回率也叫查全率,以物体检测为例,我们往往把图片中的物体作为正例,此时召回率高代表着模型可以找出图片中更多的物体!

"Recall: "+str(round((tp)/(tp+fn), 3))

2.3、精确率(Precision)

针对模型判断出的所有正例(TP+FP)而言,其中真正例(TP)占的比例。精确率也叫查准率,还是以物体检测为例,精确率高表示模型检测出的物体中大部分确实是物体,只有少量不是物体的对象被当成物体。

"Precision: "+str(round((tp)/(tp+fp), 3))

2.4、敏感度、特异度、假阳性率、阳性预测值、阴性预测值

还有,敏感度Sensitivity、特异度Specificity、假阳性率False positive rate、阳性预测值Positive predictive value、阴性预测值Negative predictive value,分别的计算方法如下所示:

  1. ("Sensitivity: "+str(round(tp/(tp+fn+0.01), 3)))
  2. ("Specificity: "+str(round(1-(fp/(fp+tn+0.01)), 3)))
  3. ("False positive rate: "+str(round(fp/(fp+tn+0.01), 3)))
  4. ("Positive predictive value: "+str(round(tp/(tp+fp+0.01), 3)))
  5. ("Negative predictive value: "+str(round(tn/(fn+tn+0.01), 3)))

其中:

  • 敏感度=召回率,都是看label标记是阳性中,预测pd有多少真是阳性 
  • 特异度是看label标记是阴性中,预测pd有多少是真的阴性,这里的阴性可以是一大类。假设需要评估的类是马路上的人,那除人之外,其他类别均可以作为人相对应的阴性
  • 在医学领域,敏感度更关注漏诊率(有病之人不能漏),特异度更关注误诊率(无病之人不能误)
  • 假阳性率 = 1 - 特异度,假阳性越多,误诊越多
  • 阳性预测值 = 精确率,是看预测为阳性中,有多少是真阳性
  • 阴性预测值是看预测为阴性中,有多少是真阴性

2.5、F1score

要计算F1score,需要先计算精确率和召回率。其中:

  1. Precision = tp/tp+fp
  2. Recall = tp/tp+fn
  3. 进而计算得到:
  4. F1score = 2 * Precision * Recall /(Precision + Recall)

那么,你有没有想过,F1score中,recall和Precision对其的影响是怎么样的。我们用如下代码,绘制出来看看。

  1. import numpy as np
  2. import matplotlib.pyplot as plt
  3. fig = plt.figure() #定义新的三维坐标轴
  4. ax3 = plt.axes(projection='3d')
  5. #定义三维数据
  6. precision = np.arange(0.01, 1, 0.1)
  7. recall = np.arange(0.01, 1, 0.1)
  8. X, Y = np.meshgrid(precision, recall) # 用两个坐标轴上的点在平面上画网格
  9. Z = 2*X*Y/(X+Y)
  10. # 作图
  11. ax3.plot_surface(X, Y, Z, rstride = 1, cstride = 1, cmap='rainbow')
  12. plt.xlabel('precision')
  13. plt.ylabel('recall')
  14. plt.title('F1 score')
  15. plt.show()

数据分布图如下: 

可以看出,精准度和recall,无论任何一个低,F1score都不会高,只有两个都高的时候,分数才会高,这也能够说明,为啥很多评价都是采用F1 score。 

三、绘制ROC曲线,及计算以上评价参数

3.1、什么是ROC

在上文混淆矩阵时候,我们提到:混淆矩阵的绘制严重依赖一个固定的阈值,在确定该阈值的前提下,才能确定混淆矩阵的数值,这种对模型评价方式是面片,不全面的。

此时,迫切需要一中评价方式,能够更加全面的对模型进行评估,于是就出现的ROC曲线,如下所示:

 其中:

  • 横轴:False Positive Rate(假阳率,FPR)
  • 纵轴:True Positive Rate(真阳率,TPR)

连接(0,0)和(1,1)绿色曲线上的任意一点,是在该阈值下,对应的混淆矩阵下的假阳性率和真阳性率。例如图中的(0.1,0.8),即该阈值 t 下,假阳性率为0.1,真阳性率为0.8。

 一个简单示例:

  1. import numpy as np
  2. from sklearn.metrics import roc_curve, auc
  3. y = np.array([1, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1])
  4. scores = np.array([0.1, 0.4, 0.35, 0.8, 0.9, 0.7, 0.6, 0.4, 0.2, 0.1, 0.2, 0.9, 0.8, 0.65, 0.85, 0.67, 0.75, 0.74, 0.36, 0.85, 0.48, 0.95, 1, 0.65,
  5. 0.85, 0.75, 0.95, 0.84, 0.74, 0.58, 0.95])
  6. fpr, tpr, thresholds = roc_curve(y, scores, pos_label=1)
  7. print(fpr)
  8. print(tpr)
  9. print(thresholds)
  10. roc_auc = auc(fpr, tpr)
  11. plt.plot(fpr, tpr, lw=1, label="COVID vs NotCOVID, AUC=%0.3f)" % (roc_auc))
  12. plt.xlim([0.00, 1.0])
  13. plt.ylim([0.00, 1.0])
  14. plt.xlabel("False Positive Rate")
  15. plt.ylabel("True Positive Rate")
  16. plt.title("ROC")
  17. plt.legend(loc="lower right")
  18. plt.savefig(r"./ROC.png")
  19. print("ok")

更多详尽的,参考sklearn官方文档即可。后续的几个画图,也是根据这里展开的。可以不看,自己构建即可。

3.2、绘制二分类ROC

如下为统计数据:

下面的代码,就是要读取上面的CSV文档,对该类别绘制ROC曲线。这里只是一个范例,你根据自己的数据情况进行针对性的修改即可。其中+表示阳性,-表示阴性 

  1. __author__ = "lingjun"
  2. # E-mail: 1763469890@qq.com
  3. from sklearn.metrics import roc_auc_score, confusion_matrix, roc_curve, auc
  4. from matplotlib import pyplot as plt
  5. import numpy as np
  6. import torch
  7. import csv
  8. def confusion_matrix_roc(GT, PD, experiment, n_class):
  9. GT = GT.numpy()
  10. PD = PD.numpy()
  11. y_gt = np.argmax(GT, 1)
  12. y_gt = np.reshape(y_gt, [-1])
  13. y_pd = np.argmax(PD, 1)
  14. y_pd = np.reshape(y_pd, [-1])
  15. # ---- Confusion Matrix and Other Statistic Information ----
  16. if n_class > 2:
  17. c_matrix = confusion_matrix(y_gt, y_pd)
  18. # print("Confussion Matrix:\n", c_matrix)
  19. list_cfs_mtrx = c_matrix.tolist()
  20. # print("List", type(list_cfs_mtrx[0]))
  21. path_confusion = r"./records/" + experiment + "/confusion_matrix.txt"
  22. # np.savetxt(path_confusion, (c_matrix))
  23. np.savetxt(path_confusion, np.reshape(list_cfs_mtrx, -1), delimiter=',', fmt='%5s')
  24. if n_class == 2:
  25. list_cfs_mtrx = []
  26. tn, fp, fn, tp = confusion_matrix(y_gt, y_pd).ravel()
  27. list_cfs_mtrx.append("TN: " + str(tn))
  28. list_cfs_mtrx.append("FP: " + str(fp))
  29. list_cfs_mtrx.append("FN: " + str(fn))
  30. list_cfs_mtrx.append("TP: " + str(tp))
  31. list_cfs_mtrx.append(" ")
  32. list_cfs_mtrx.append("Accuracy: " + str(round((tp + tn) / (tp + fp + fn + tn), 3)))
  33. list_cfs_mtrx.append("Sensitivity: " + str(round(tp / (tp + fn + 0.01), 3)))
  34. list_cfs_mtrx.append("Specificity: " + str(round(1 - (fp / (fp + tn + 0.01)), 3)))
  35. list_cfs_mtrx.append("False positive rate: " + str(round(fp / (fp + tn + 0.01), 3)))
  36. list_cfs_mtrx.append("Positive predictive value: " + str(round(tp / (tp + fp + 0.01), 3)))
  37. list_cfs_mtrx.append("Negative predictive value: " + str(round(tn / (fn + tn + 0.01), 3)))
  38. path_confusion = r"./records/" + experiment + "/confusion_matrix.txt"
  39. np.savetxt(path_confusion, np.reshape(list_cfs_mtrx, -1), delimiter=',', fmt='%5s')
  40. # ---- ROC ----
  41. plt.figure(1)
  42. plt.figure(figsize=(6, 6))
  43. fpr, tpr, thresholds = roc_curve(GT[:, 1], PD[:, 1])
  44. roc_auc = auc(fpr, tpr)
  45. plt.plot(fpr, tpr, lw=1, label="positive vs negative, area=%0.3f)" % (roc_auc))
  46. # plt.plot(thresholds, tpr, lw=1, label='Thr%d area=%0.2f)' % (1, roc_auc))
  47. # plt.plot([0, 1], [0, 1], '--', color=(0.6, 0.6, 0.6), label='Luck')
  48. plt.xlim([0.00, 1.0])
  49. plt.ylim([0.00, 1.0])
  50. plt.xlabel("False Positive Rate")
  51. plt.ylabel("True Positive Rate")
  52. plt.title("ROC")
  53. plt.legend(loc="lower right")
  54. plt.savefig(r"./records/" + experiment + "/ROC.png")
  55. print("ok")
  56. def inference():
  57. GT = torch.FloatTensor()
  58. PD = torch.FloatTensor()
  59. file = r"Sensitive_rename_inform.csv"
  60. with open(file, 'r', encoding='UTF-8') as f:
  61. reader = csv.DictReader(f)
  62. for row in reader:
  63. # TODO
  64. max_patient_score = float(row['ai1'])
  65. doctor_gt = row['gt2']
  66. print(max_patient_score,doctor_gt)
  67. pd = [[max_patient_score, 1-max_patient_score]]
  68. output_pd = torch.FloatTensor(pd).to(device)
  69. if doctor_gt == "+":
  70. target = [[1.0, 0.0]]
  71. else:
  72. target = [[0.0, 1.0]]
  73. target = torch.FloatTensor(target) # 类型转换, 将list转化为tensor, torch.FloatTensor([1,2])
  74. Target = torch.autograd.Variable(target).long().to(device)
  75. GT = torch.cat((GT, Target.float().cpu()), 0) # 在行上进行堆叠
  76. PD = torch.cat((PD, output_pd.float().cpu()), 0)
  77. confusion_matrix_roc(GT, PD, "ROC", 2)
  78. if __name__ == "__main__":
  79. inference()

若是表格里面有中文,则记得这里进行修改,否则报错

with open(file, 'r') as f:

四、更普遍的方法,绘制ROC

这是两个文件夹,存储的都是记录图像预测结果的txt文件,分别是:

  1.  tb表示的是positive样本预测的txt文件集,一个图像对应一个txt
  2. nontb表示的是negative样本预测的txt文件集,一个图像对应一个txt
  3. 每一个txt文件记录的都是该图像预测的置信率(我这里是目标检测、分割问题,所以一个图像里面,可能会存在两个目标的问题)

如下是实现的代码,整体内容与上一个绘制ROC的方法差不多,只是读取数据的方式不同。

  1. import csv
  2. import numpy as np
  3. import torch
  4. import os
  5. from matplotlib import pyplot as plt
  6. from sklearn.metrics import roc_auc_score, confusion_matrix, roc_curve, auc
  7. def confusion_matrix_roc(GT, PD, experiment, n_class):
  8. GT = GT.numpy()
  9. PD = PD.numpy()
  10. y_gt = np.argmax(GT, 1)
  11. y_gt = np.reshape(y_gt, [-1])
  12. y_pd = np.argmax(PD, 1)
  13. y_pd = np.reshape(y_pd, [-1])
  14. # ---- Confusion Matrix and Other Statistic Information ----
  15. if n_class > 2:
  16. c_matrix = confusion_matrix(y_gt, y_pd)
  17. # print("Confussion Matrix:\n", c_matrix)
  18. list_cfs_mtrx = c_matrix.tolist()
  19. # print("List", type(list_cfs_mtrx[0]))
  20. path_confusion = r"./records/" + experiment + "/confusion_matrix.txt"
  21. # np.savetxt(path_confusion, (c_matrix))
  22. np.savetxt(path_confusion, np.reshape(list_cfs_mtrx, -1), delimiter=',', fmt='%5s')
  23. if n_class == 2:
  24. list_cfs_mtrx = []
  25. tn, fp, fn, tp = confusion_matrix(y_gt, y_pd).ravel()
  26. list_cfs_mtrx.append("TN: " + str(tn))
  27. list_cfs_mtrx.append("FP: " + str(fp))
  28. list_cfs_mtrx.append("FN: " + str(fn))
  29. list_cfs_mtrx.append("TP: " + str(tp))
  30. list_cfs_mtrx.append(" ")
  31. list_cfs_mtrx.append("Accuracy: " + str(round((tp + tn) / (tp + fp + fn + tn), 3)))
  32. list_cfs_mtrx.append("Sensitivity: " + str(round(tp / (tp + fn + 0.01), 3)))
  33. list_cfs_mtrx.append("Specificity: " + str(round(1 - (fp / (fp + tn + 0.01)), 3)))
  34. list_cfs_mtrx.append("False positive rate: " + str(round(fp / (fp + tn + 0.01), 3)))
  35. list_cfs_mtrx.append("Positive predictive value: " + str(round(tp / (tp + fp + 0.01), 3)))
  36. list_cfs_mtrx.append("Negative predictive value: " + str(round(tn / (fn + tn + 0.01), 3)))
  37. path_confusion = r"./records/confusion_matrix.txt"
  38. np.savetxt(path_confusion, np.reshape(list_cfs_mtrx, -1), delimiter=',', fmt='%5s')
  39. # ---- ROC ----
  40. plt.figure(1)
  41. plt.figure(figsize=(6, 6))
  42. fpr, tpr, thresholds = roc_curve(GT[:, 1], PD[:, 1])
  43. roc_auc = auc(fpr, tpr)
  44. return fpr, tpr, roc_auc
  45. # plt.plot(fpr, tpr, lw=1, label="ATB vs NotTB, area=%0.3f)" % (roc_auc))
  46. # # plt.plot(thresholds, tpr, lw=1, label='Thr%d area=%0.2f)' % (1, roc_auc))
  47. # # plt.plot([0, 1], [0, 1], '--', color=(0.6, 0.6, 0.6), label='Luck')
  48. #
  49. # plt.xlim([0.00, 1.0])
  50. # plt.ylim([0.00, 1.0])
  51. # plt.xlabel("False Positive Rate")
  52. # plt.ylabel("True Positive Rate")
  53. # plt.title("ROC")
  54. # plt.legend(loc="lower right")
  55. # plt.savefig(r"./records/" + experiment + "/ROC.png")
  56. def draw_ROC(file):
  57. GT = torch.FloatTensor()
  58. PD = torch.FloatTensor()
  59. pred_tb_num = 0
  60. for (path, dirs, files) in os.walk(file):
  61. for filename in files:
  62. txt_path = os.path.join(path, filename)
  63. label_flag = txt_path.split("\\")[-2]
  64. size = os.path.getsize(txt_path)
  65. if size != 0:
  66. print('文件不是空的')
  67. list_socre = []
  68. with open(txt_path, "r") as f:
  69. for line in f.readlines():
  70. line = line.strip('\n') # 去掉列表中每一个元素的换行符
  71. list_socre.append(line)
  72. max_score=max(list_socre)
  73. print("max_score:",max_score)
  74. output = [[1-float(max_score), float(max_score)]]
  75. print("output=", output)
  76. output = torch.FloatTensor(output) # 类型转换, 将list转化为tensor, torch.FloatTensor([1,2])
  77. # output_pd = torch.autograd.Variable(output).long().to('cpu')
  78. PD = torch.cat((PD, output.float().cpu()), 0) # 在行上进行堆叠
  79. print(label_flag)
  80. if label_flag == "tb":
  81. target = [[0.0, 1.0]]
  82. else:
  83. target = [[1.0, 0.0]]
  84. print("target=", target)
  85. target = torch.FloatTensor(target) # 类型转换, 将list转化为tensor, torch.FloatTensor([1,2])
  86. GT = torch.cat((GT, target.float().cpu()), 0) # 在行上进行堆叠
  87. else:
  88. output = [[1.0, 0.0]]
  89. print("output=", output)
  90. output = torch.FloatTensor(output) # 类型转换, 将list转化为tensor, torch.FloatTensor([1,2])
  91. # output_pd = torch.autograd.Variable(output).long().to('cpu')
  92. PD = torch.cat((PD, output.float().cpu()), 0) # 在行上进行堆叠
  93. print(label_flag)
  94. if label_flag == "tb":
  95. target = [[0.0, 1.0]]
  96. else:
  97. target = [[1.0, 0.0]]
  98. print("target=", target)
  99. target = torch.FloatTensor(target) # 类型转换, 将list转化为tensor, torch.FloatTensor([1,2])
  100. GT = torch.cat((GT, target.float().cpu()), 0) # 在行上进行堆叠
  101. print(len(GT))
  102. return GT, PD
  103. if __name__=='__main__':
  104. file = r"Z:\reslt_pd"
  105. GT_no, PD_no = draw_ROC(file)
  106. fpr_no, tpr_no, roc_auc_no = confusion_matrix_roc(GT_no, PD_no, "ROC", 2)
  107. plt.plot(fpr_no, tpr_no, lw=1, label="positive vs negative, area=%0.3f)" % (roc_auc_no))
  108. #plt.plot(fpr, tpr, lw=1, label="ATB vs NotTB ReduceFP, area=%0.3f)" % (roc_auc))
  109. # plt.plot(thresholds, tpr, lw=1, label='Thr%d area=%0.2f)' % (1, roc_auc))
  110. # plt.plot([0, 1], [0, 1], '--', color=(0.6, 0.6, 0.6), label='Luck')
  111. plt.xlim([0.00, 1.0])
  112. plt.ylim([0.00, 1.0])
  113. plt.xlabel("1-specificity")
  114. plt.ylabel("sensitivity")
  115. plt.title("ROC")
  116. plt.legend(loc="lower right")
  117. plt.savefig(r"ROC.png")

五、多分类的ROC曲线

参考链接:ROC原理介绍及利用python实现二分类和多分类的ROC曲线_闰土不用叉的博客-CSDN博客_roc曲线python

  1. # 引入必要的库
  2. import numpy as np
  3. import matplotlib.pyplot as plt
  4. from itertools import cycle
  5. from sklearn import svm, datasets
  6. from sklearn.metrics import roc_curve, auc
  7. from sklearn.model_selection import train_test_split
  8. from sklearn.preprocessing import label_binarize
  9. from sklearn.multiclass import OneVsRestClassifier
  10. from scipy import interp
  11. # 加载数据
  12. iris = datasets.load_iris()
  13. X = iris.data
  14. y = iris.target
  15. # 将标签二值化
  16. y = label_binarize(y, classes=[0, 1, 2])
  17. # 设置种类
  18. n_classes = y.shape[1]
  19. # 训练模型并预测
  20. random_state = np.random.RandomState(0)
  21. n_samples, n_features = X.shape
  22. # shuffle and split training and test sets
  23. X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.5,random_state=0)
  24. # Learn to predict each class against the other
  25. classifier = OneVsRestClassifier(svm.SVC(kernel='linear', probability=True,
  26. random_state=random_state))
  27. y_score = classifier.fit(X_train, y_train).decision_function(X_test)
  28. # 计算每一类的ROC
  29. fpr = dict()
  30. tpr = dict()
  31. roc_auc = dict()
  32. for i in range(n_classes):
  33. fpr[i], tpr[i], _ = roc_curve(y_test[:, i], y_score[:, i])
  34. roc_auc[i] = auc(fpr[i], tpr[i])
  35. # Compute micro-average ROC curve and ROC area(方法二)
  36. fpr["micro"], tpr["micro"], _ = roc_curve(y_test.ravel(), y_score.ravel())
  37. roc_auc["micro"] = auc(fpr["micro"], tpr["micro"])
  38. # Compute macro-average ROC curve and ROC area(方法一)
  39. # First aggregate all false positive rates
  40. all_fpr = np.unique(np.concatenate([fpr[i] for i in range(n_classes)]))
  41. # Then interpolate all ROC curves at this points
  42. mean_tpr = np.zeros_like(all_fpr)
  43. for i in range(n_classes):
  44. mean_tpr += interp(all_fpr, fpr[i], tpr[i])
  45. # Finally average it and compute AUC
  46. mean_tpr /= n_classes
  47. fpr["macro"] = all_fpr
  48. tpr["macro"] = mean_tpr
  49. roc_auc["macro"] = auc(fpr["macro"], tpr["macro"])
  50. # Plot all ROC curves
  51. lw=2
  52. plt.figure()
  53. plt.plot(fpr["micro"], tpr["micro"],
  54. label='micro-average ROC curve (area = {0:0.2f})'
  55. ''.format(roc_auc["micro"]),
  56. color='deeppink', linestyle=':', linewidth=4)
  57. plt.plot(fpr["macro"], tpr["macro"],
  58. label='macro-average ROC curve (area = {0:0.2f})'
  59. ''.format(roc_auc["macro"]),
  60. color='navy', linestyle=':', linewidth=4)
  61. colors = cycle(['aqua', 'darkorange', 'cornflowerblue'])
  62. for i, color in zip(range(n_classes), colors):
  63. plt.plot(fpr[i], tpr[i], color=color, lw=lw,
  64. label='ROC curve of class {0} (area = {1:0.2f})'
  65. ''.format(i, roc_auc[i]))
  66. plt.plot([0, 1], [0, 1], 'k--', lw=lw)
  67. plt.xlim([0.0, 1.0])
  68. plt.ylim([0.0, 1.05])
  69. plt.xlabel('False Positive Rate')
  70. plt.ylabel('True Positive Rate')
  71. plt.title('Some extension of Receiver operating characteristic to multi-class')
  72. plt.legend(loc="lower right")
  73. plt.show()

图像如下: 

补充一个更普世的绘制方法,如下:

  1. def readtxt(txtfile_path):
  2. list_info = []
  3. with open(txtfile_path, "r") as f:
  4. for line in f.readlines():
  5. line = line.strip('\n') # 去掉列表中每一个元素的换行符
  6. list_info.append(float(line))
  7. return list_info
  8. def plot_roc():
  9. fig = plt.figure(figsize=(6, 6))
  10. # base line
  11. fpr1 = readtxt(r'./roc/lidc_fpr.txt')
  12. tpr1 = readtxt(r'./roc/lidc_tpr.txt')
  13. print(fpr1)
  14. print(tpr1)
  15. roc_auc, auc_l, auc_h = 0.784, 0.724, 0.836
  16. plt.plot(fpr1, tpr1, lw=2, label='{} AUC={} (95% CI: {}-{})'.format('LIDC', roc_auc, auc_l, auc_h))
  17. #
  18. fpr = readtxt(r'./roc/a_fpr.txt')
  19. tpr = readtxt(r'./roc/a_tpr.txt')
  20. print(fpr)
  21. print(tpr)
  22. roc_auc, auc_l, auc_h = 0.762, 0.730, 0.792
  23. plt.plot(fpr, tpr, lw=2, label='{} AUC={} (95% CI: {}-{})'.format('a', roc_auc, auc_l, auc_h))
  24. plt.xlim([0.00, 1.0])
  25. plt.ylim([0.00, 1.0])
  26. plt.xlabel('1-Specificity')
  27. plt.ylabel('Sensitivity')
  28. # plt.title('ROC')
  29. plt.legend(loc="lower right")
  30. plt.plot([0,1], [0, 1], color='gray', linestyle='dashed')
  31. plt.show()
  32. if __name__=='__main__':
  33. plot_roc()

展示出来的结果,大致如下:

六、FROC拓展

代码如下:

  1. # coding=UTF-8
  2. #
  3. from sklearn import metrics
  4. import matplotlib.pylab as plt
  5. GTlist = [1.0, 1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 1.0, 0.0, 1.0,
  6. 0.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0,
  7. 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
  8. Problist = [0.99, 0.98, 0.97, 0.93, 0.85, 0.80, 0.79, 0.75, 0.70, 0.65,
  9. 0.64, 0.63, 0.55, 0.54, 0.51, 0.49, 0.30, 0.2, 0.1, 0.09,
  10. 0.1, 0.5, 0.6, 0.7, 0.8, 0.5, 0.2, 0.3, 0.2, 0.5]
  11. # num of image
  12. totalNumberOfImages = 2
  13. numberOfDetectedLesions = sum(GTlist)
  14. totalNumberOfCandidates = len(Problist)
  15. fpr, tpr, thresholds = metrics.roc_curve(GTlist, Problist, pos_label=1)
  16. # FROC
  17. fps = fpr * (totalNumberOfCandidates - numberOfDetectedLesions) / totalNumberOfImages
  18. sens = tpr
  19. print(fps)
  20. print(sens)
  21. plt.plot(fps, sens, color='b', lw=2)
  22. plt.legend(loc='lower right')
  23. # plt.plot([0, 1], [0, 1], 'r--')
  24. plt.xlim([fps.min(), fps.max()])
  25. plt.ylim([0, 1.1])
  26. plt.xlabel('Average number of false positives per scan') # 横坐标是fpr
  27. plt.ylabel('True Positive Rate') # 纵坐标是tpr
  28. plt.title('FROC performence')
  29. plt.show()

展示结果如下: 

七、MedCalc统计软件绘制ROC

MedCalc是一款医学专用的统计计算软件,在研究医学领域有较为广泛的应用,软件不大,而功能却很强大,用图形化的界面直观明了的显示所统计的结果,这里就简单介绍下medcalc的统计教程。

官方下载地址:(只有15天试用期。由于不能乱传播,仅用作学习使用。若想获得免费版本,评论备注信息,留下邮箱)Download MedCalc Version 20.106icon-default.png?t=N7T8https://www.medcalc.org/download/下面已绘制ROC曲线为例,进行介绍,步骤如图所示:

 绘制的结果如下:

这也是绘制ROC的一种方式,比较快捷。只要准备好需要的数据,既可以直接绘制。注意,这里统计预测分数时候,阈值一定要取的比较低,比如0.01。这样在绘制曲线时候,阈值的选择面才会大。

百度文档对这块进行了详述,更多内容去看这里:MedCalc常用统计教程icon-default.png?t=N7T8https://jingyan.baidu.com/article/ca41422f219a641eae99edea.html

八、AUC值

AUC 是 ROC 曲线下面的面积,AUC 可以解读为从所有正例中随机选取一个样本 A,再从所有负例中随机选取一个样本 B,分类器将 A 判为正例的概率比将 B 判为正例的概率大的可能性

也就是:任意取一个正样本和负样本,正样本得分大于负样本的概率。

AUC 反映的是分类器对样本的排序能力。AUC 越大,自然排序能力越好,即分类器将越多的正例排在负例之前。

  • AUC = 1,代表完美分类器
  • 0.5 < AUC < 1,优于随机分类器
  • 0 < AUC < 0.5,差于随机分类器

AUC的公式:

问1:数据不平衡,对AUC有影响吗?

答1:数据不平衡对 auc 影响不大(ROC曲线下的面积,ROC的横纵坐标分别是真阳性率和1-真阴性率)。

问2:还有什么指标可以针对不平衡数据进行评估?

答2:还可以使用 PR(Precision-Recall )曲线。

九、mAP

更高的mAP,意味着模型的表现更优秀。实现代码部分,参考这里,大致分为三个步骤:

  1. 构建ground-truth files
  2. 预测生成detection-results files
  3. python main.py

github mAPicon-default.png?t=N7T8https://github.com/Cartucho/mAP下面的图,就是AP的绘制图,其中:

  • 横轴是recall
  • 数轴是precision
  • 蓝色区域的面积,就是AP
  • 多个类的平均值,就是mAP

十、总结

本篇对模型评估的方式做了一个汇总,同时对其中几个重要的、常用的方法进行了单独的文章介绍。同时,也提供了一些软件,可以帮助我们再不使用代码,或者少使用代码的情况下,绘制对应的图。

但是呢,究竟针对你自己的项目,需要使用哪些评估方法,还有根据你自己具体的项目进行选择,这个相信你学习透了,自己也能够想清楚应该选择哪个,并且知道了为什么。


最后,如果您觉得本篇文章对你有帮助,欢迎点赞,让更多人看到,这是对我继续写下去的鼓励。如果能再点击下方的红包打赏,给博主来一杯咖啡,那就太好了。

参考资料:

1.模型评估之混淆矩阵(confusion_matrix)含义及Python代码实现

2.混淆矩阵(Confusion matrix)的原理及使用(scikit-learn 和 tensorflow) - klchang - 博客园

3.FP,FN,TP,TN与精确率(Precision),召回率(Recall),准确率(Accuracy)_littlehaes的博客-CSDN博客_fp tphttps://blog.csdn.net/littlehaes/article/details/83278256

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/151742
推荐阅读
相关标签
  

闽ICP备14008679号