赞
踩
TP:预测为正样本,实际也为正样本的特征数
FP:预测为正样本,实际为负样本的特征数
TN:预测为负样本,实际也为负样本的特征数
FN:预测为负样本,实际为正样本的特征数
总结:预测的正样本是P,负样本是N。预测对了就是T,错了就是F。
现在在看这张图,机器预测的是男生,女生就作为负样本。那么100个人中,我预测了60个人的值,认为这60个人是男生。
那么精确率的意思是我预测的这60个男生,有多少是对的。就是我预测正样本p中对了多少个。
召回率是说真正的正样本中,我预测对了占多少。预测错的不管他。这题就是男生一共70人,我预测对了只有40人。
· 横坐标:1-Specificity,伪正类率(False positive rate, FPR),预测为正但实际为负的样本占所有负例样本的比例;
· 纵坐标:Sensitivity,真正类率(True positive rate, TPR),预测为正且实际为正的样本占所有正例样本的比例。
AUC (Area Under Curve) 被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
AUC的计算有两种方式,梯形法和ROC AUCH法,都是以逼近法求近似值,具体见wikipedia。
那么AUC值的含义是什么呢?根据(Fawcett, 2006),AUC的值的含义是:
The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example.
这句话有些绕,我尝试解释一下:首先AUC值是一个概率值,当你随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然,AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。
从AUC判断分类器(预测模型)优劣的标准:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。