赞
踩
混淆矩阵,是一个两行两列的矩阵,由TP, FP, FN, TN组成,对角线上是TP和TN, 即分类正确的,而不再对角线上的都是分类错误的。如:
如果不是二分类,则混淆矩阵可以不局限为两行两列,但是仍然只有对角线是分类正确的,对角线之外都是错误的。如:
即:分类正确的总个数/总样本数
一直对这几个指标稀里糊涂,今天终于明白了,原来我一直用的是accuracy(幸好没在论文里用错词哈哈)
例如,如果在一个数据集中有95只猫,但是只有5条狗,那么某些分类器很可能偏向于将所有的样本预测成猫。整体准确率为95%,但是实际上该分类器对猫的识别率是100%,而对狗的识别率是0%。
所以在样本不平衡的情况下,光看准确率是没用的,得到的结果具有误导性。
即:正类被正确分为正类的个数/(正类正确数+负类被分为正类的数目)
是在所有被分为正类的样本总数中,真正是正类的样本所占比例。
所以精确率是针对预测结果而言的,表示预测为正的样本中有多少是对的。
正类被正确分为正类的样本数/(正类正确+正类错分为负类的样本总数)
即在所有正类样本中,正确分类的样本所占比例
召回率是针对所有原始样本的,表示样本中的正类有多少被预测正确了。
我觉得召回率比精确率好理解呢
反正精确率P和召回率R越高,则F1值越高。
更一般的F1形式:
receiver operating characteristic,接收机操作特征,是一个曲线,可以展示二元分类器随着判别阈值改变,性能的变化。
比如在逻辑回归里面,我们会设一个阈值,大于这个值的为正类,小于这个值为负类。如果我们减小这个阀值,那么更多的样本会被识别为正类。这会提高正类的识别率,但同时也会使得更多的负类被错误识别为正类。为了形象化这一变化,在此引入 ROC ,ROC 曲线可以用于评价一个分类器好坏。
emmm,感觉这不就是研究阈值设置为多少合适了吗?
TPR就是召回率,即正类样本中被正确分为正类的比例
FPR是负类样本被错分为正类的比例。
ROC曲线的每一个点的横坐标是FPR, 纵坐标是TPR,所以ROC曲线描绘出了分类器在TP(真正率)和FP(假正率)之间的trade-off。
Mean Absolute Error
Mean Squared Error
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。