当前位置:   article > 正文

自然语言处理 第二期_pos neg数据集

pos neg数据集

任务2 - 数据集下载探索模块:IMDB数据集(英文)和THUCNews数据集(中文)】时长:2天

1. 数据集

数据集:中、英文数据集各一份

THUCNews中文数据集:https://pan.baidu.com/s/1hugrfRu 密码:qfud

IMDB英文数据集: [IMDB数据集 Sentiment Analysis](http://ai.stanford.edu/~amaas/data/sentiment/)

2. IMDB数据集下载和探索模块及指标学习模块

3. THUCNews数据集下载和探索

4. 学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念

一、数据集简介

THUCNews数据集简介

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
THUCNews中文数据集包括四个文件:cnews.train.txt、cnews.val.txt、cnews.test.txt 和 cnews.vocab.txt
cnews.train.txt是训练数据,cnews.val.txt是验证数据,cnews.test.txt是测试数据,这三个文件每条数据都是一段新闻文本和新闻所属类别,cnews.vocab.txt是词汇表、字符集。

iMDB数据集简介

主要包含train和test文件夹,里面的pos和neg文件夹下是积极的和消极的评论文本,train文件夹下还有unsup文件夹,内有50000条没有标记的文本。

数据集简介[3]:IMDb创建于1990年10月17日,从1998年开始成为亚马逊公司旗下网站,数据集中包括了影片的众多信息、演员、片长、内容介绍、分级、评论等。对于电影的评分目前使用最多的就是IMDb评分。

其中包含两个文件夹:test 和 train

  • train 中包含训练数据

    train 中分为 neg, pos, unsup 三个部分(neg:negative消极的,pos:positive积极的,unsup:未标记)

  • test 中包含测试数据

    train 中分为 neg, pos 两个部分

二、评估指标

  1. 评估指标:混淆矩阵

    通过混淆矩阵来计算正确率和召回率。

    • 混淆矩阵:

      真阳性(True Positive,TP):样本的真实类别是正例,并且模型预测的结果也是正例

      • 真阴性(True Negative,TN):样本的真实类别是负例,并且模型将其预测成为负例
      • 假阳性(False Positive,FP):样本的真实类别是负例,但是模型将其预测成为正例
      • 假阴性(False Negative,FN):样本的真实类别是正例,但是模型将其预测成为负例
    • 使用 sklearn 计算混淆矩阵

      from sklearn.metrics import confusion_matrix
      cm = confusion_matrix(y_true, y_pred)
  2. 召回率

    • 概念:召回率也称查全率,指预测正确的正例实际为正例的比例。

    • 计算公式:召回率R = TP / (TP + FN) ;TP 指预测正确的正例,FN 指被识别为反例的正例。

    • 使用 sklearn 计算召回率

      from sklearn.metrics import recall_score
      rs = recall_score(y_true, y_pred)
  3. 精确率

    • 概念:精确率指预测正确的正例所有预测值为正例的比例。

    • 计算公式:精确率P = TP / (TP + FP);TP 指预测正确的正例,FP 指预测值为正例但预测错误。

    • 使用 sklearn 计算精确率

      from sklearn.metrics import precision_score
      ps = precision_score(y_true, y_pred)
  4. ROC曲线[4]

    • 概念:接收者操作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,roc曲线上每个点反映着对同一信号刺激的感受性。

    • 横坐标:1-Specificity,伪正类率(False positive rate, FPR),预测为正但实际为负的样本占所有负例样本的比例。

      纵坐标:Sensitivity,真正类率(True positive rate, TPR),预测为正且实际为正的样本占所有正例样本的比例,即召回率。

  5. AUC[4]

    • 概念:AUC (Area Under Curve) 被定义为 ROC 曲线下的面积,显然这个面积的数值不会大于 1。又由于 ROC 曲线一般都处于 y = x 这条直线的上方,所以 AUC 的取值范围一般在 0.5 和 1 之间。使用 AUC 值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应 AUC 更大的分类器效果更好。

    • 含义:首先AUC值是一个概率值,当你随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然,AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。

    • 从 AUC 判断分类器(预测模型)优劣的标准:

      • AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。

      • 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。

      • AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。

      • AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

    简单说:AUC值越大的分类器,正确率越高

  6. PR曲线[5]

    • 概念:P-R 曲线就是精确率 precision vs 召回率 recall 曲线,以 recall 作为横坐标轴,precision 作为纵坐标轴。

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/很楠不爱3/article/detail/629608
推荐阅读
相关标签
  

闽ICP备14008679号