赞
踩
1. 数据集
数据集:中、英文数据集各一份
THUCNews中文数据集:https://pan.baidu.com/s/1hugrfRu 密码:qfud
IMDB英文数据集: [IMDB数据集 Sentiment Analysis](http://ai.stanford.edu/~amaas/data/sentiment/)
2. IMDB数据集下载和探索模块及指标学习模块
3. THUCNews数据集下载和探索
4. 学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
THUCNews中文数据集包括四个文件:cnews.train.txt、cnews.val.txt、cnews.test.txt 和 cnews.vocab.txt
cnews.train.txt是训练数据,cnews.val.txt是验证数据,cnews.test.txt是测试数据,这三个文件每条数据都是一段新闻文本和新闻所属类别,cnews.vocab.txt是词汇表、字符集。
主要包含train和test文件夹,里面的pos和neg文件夹下是积极的和消极的评论文本,train文件夹下还有unsup文件夹,内有50000条没有标记的文本。
数据集简介[3]:IMDb创建于1990年10月17日,从1998年开始成为亚马逊公司旗下网站,数据集中包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。对于电影的评分目前使用最多的就是IMDb评分。
其中包含两个文件夹:test 和 train
train 中包含训练数据
train 中分为 neg, pos, unsup 三个部分(neg:negative消极的,pos:positive积极的,unsup:未标记)
test 中包含测试数据
train 中分为 neg, pos 两个部分
评估指标:混淆矩阵
通过混淆矩阵来计算正确率和召回率。
混淆矩阵:
真阳性(True Positive,TP):样本的真实类别是正例,并且模型预测的结果也是正例
使用 sklearn 计算混淆矩阵
from sklearn.metrics import confusion_matrix cm = confusion_matrix(y_true, y_pred)
召回率
概念:召回率也称查全率,指预测正确的正例占实际为正例的比例。
计算公式:召回率R = TP / (TP + FN) ;TP 指预测正确的正例,FN 指被识别为反例的正例。
使用 sklearn 计算召回率
from sklearn.metrics import recall_score rs = recall_score(y_true, y_pred)
精确率
概念:精确率指预测正确的正例占所有预测值为正例的比例。
计算公式:精确率P = TP / (TP + FP);TP 指预测正确的正例,FP 指预测值为正例但预测错误。
使用 sklearn 计算精确率
from sklearn.metrics import precision_score ps = precision_score(y_true, y_pred)
ROC曲线[4]
概念:接收者操作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,roc曲线上每个点反映着对同一信号刺激的感受性。
横坐标:1-Specificity,伪正类率(False positive rate, FPR),预测为正但实际为负的样本占所有负例样本的比例。
纵坐标:Sensitivity,真正类率(True positive rate, TPR),预测为正且实际为正的样本占所有正例样本的比例,即召回率。
AUC[4]
概念:AUC (Area Under Curve) 被定义为 ROC 曲线下的面积,显然这个面积的数值不会大于 1。又由于 ROC 曲线一般都处于 y = x 这条直线的上方,所以 AUC 的取值范围一般在 0.5 和 1 之间。使用 AUC 值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应 AUC 更大的分类器效果更好。
含义:首先AUC值是一个概率值,当你随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然,AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。
从 AUC 判断分类器(预测模型)优劣的标准:
AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
简单说:AUC值越大的分类器,正确率越高。
PR曲线[5]
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。