关于文本分类（情感分析）的中文数据集汇总_文本分类数据集

作者：知新_RL | 2024-02-09 19:42:03

踩

文本分类数据集

文本分类（情感分析）中文数据集汇总

这段时间在公司NLP组里实习，相应的开始学习了一些NLP的知识，并搜索了一些关于NLP中文本分类领域的相关数据集，本文主要列举一些中文数据集。关于英语数据集，且听下回分解。

1.THUCNews数据集：

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测，准确率可以达到88.6%。

数据集地址： http://thuctc.thunlp.org/

2.今日头条新闻文本分类数据集：

数据来源：今日头条客户端
数据规模：共382688条，分布于15个分类中。
数据格式：6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言，之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据，以_!_分割的个字段，从前往后分别是
新闻ID，分类code（见下文），分类名称（见下文），新闻字符串（仅含标题），新闻关键词

数据集地址：https://github.com/fate233/toutiao-text-classfication-dataset

3.全网新闻数据(SogouCA)：

来自若干新闻站点2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据，提供URL和正文信息

数据格式为

<doc>
<url>页面URL</url>
<docno>页面ID<1
2

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/72853