自然语言处理：经典的两个数据集和评价指标_文本二分类的标准数据集

作者：小丑西瓜9 | 2024-05-27 03:18:22

踩

文本二分类的标准数据集

自然语言处理：数据集（一）

THUCNews中文数据集

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。清华大学THUCTC项目组.在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
alt
该数据集可在清华大学THUCTC项目组网页中下载。
在这里插入图片描述
填写完姓名、邮箱、等信息，遵守相关协议后，即可下载。

如果，你觉得这个数据集太大，还可以下载其数据子集：
https://pan.baidu.com/s/1hugrfRu 密码：qfud

“Github”.上也有相关的数据子集生成方法，以及基于CNN和RNN的文本分类。

IMDB英文数据集

IMDB是Internet Movie Database（互联网电影数据库）的缩写。IMDB也是美国的一个权威的电影网站，除了电影资料外，还给影片做了评分。
在这里插入图片描述
IMDB数据集，包含了25000条高极性的电影评论训练集，和25000条的测试集。是自然语言处理文本二分类问题的经典数据集。

该数据集可以从“相关网址”上直接下载，若用于科研等，请引用该作者的论文，遵守相关协议即可。
在这里插入图片描述

召回率、准确率、ROC曲线、AUC、PR曲线

对于这些概念的理解，我们首先来认识4个指标。

TP（True Positive）:将正类预测为正类
TN（True Negative）:将负类预测为负类
False Positive(FP) : 将负类预测为了正类
False Negative(FN) : 将正类预测为了负类
对于上述四个指标，我们可以建立混淆度矩阵来进行表示。

对于分类模型，我们希望越准越好。对应到混淆矩阵中，TP与TN的数量越大越好，而FP与FN的数量越小越好。当我们得到了模型的混淆矩阵后，就需要去看有多少观测值在第二、四象限对应的位置，这里的数值越多越好；反之，在第一、三四象限对应位置出现的观测值越少越好。

准确率（Accuracy）
准确率指，所有判断正确的结果占总观测值的比重。
在这里插入图片描述
精确率（Precision）
精确率指，在所有预测为positive的结果中，预测正确的比重。

召回率（Recall）
召回率指，在所有真实值为positive的结果中，预测正确的比重。

F1值
F1值是精确率和召回率的调和平均数（各变量倒数算术平均数的倒数）
在这里插入图片描述
F1值的计算如下

ROC曲线、AUC、PR曲线
待续…

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/629602