赞
踩
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。清华大学THUCTC项目组.在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
该数据集可在清华大学THUCTC项目组网页中下载。
填写完姓名、邮箱、等信息,遵守相关协议后,即可下载。
如果,你觉得这个数据集太大,还可以下载其数据子集:
https://pan.baidu.com/s/1hugrfRu 密码:qfud
“Github”.上也有相关的数据子集生成方法,以及基于CNN和RNN的文本分类。
IMDB是Internet Movie Database(互联网电影数据库)的缩写。IMDB也是美国的一个权威的电影网站,除了电影资料外,还给影片做了评分。
IMDB数据集,包含了25000条高极性的电影评论训练集,和25000条的测试集。是自然语言处理文本二分类问题的经典数据集。
该数据集可以从“相关网址”上直接下载,若用于科研等,请引用该作者的论文,遵守相关协议即可。
对于这些概念的理解,我们首先来认识4个指标。
准确率(Accuracy)
准确率指,所有判断正确的结果占总观测值的比重。
精确率(Precision)
精确率指,在所有预测为positive的结果中,预测正确的比重。
召回率(Recall)
召回率指,在所有真实值为positive的结果中,预测正确的比重。
F1值
F1值是精确率和召回率的调和平均数(各变量倒数算术平均数的倒数)
F1值的计算如下
ROC曲线、AUC、PR曲线
待续…
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。