当前位置:   article > 正文

关于文本分类(情感分析)的中文数据集汇总_文本分类数据集

文本分类数据集

文本分类(情感分析)中文数据集汇总

这段时间在公司NLP组里实习,相应的开始学习了一些NLP的知识,并搜索了一些关于NLP中文本分类领域的相关数据集,本文主要列举一些中文数据集。关于英语数据集,且听下回分解。

1.THUCNews数据集:

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。使用THUCTC工具包在此数据集上进行评测,准确率可以达到88.6%。

数据集地址: http://thuctc.thunlp.org/

2.今日头条新闻文本分类数据集:

数据来源:今日头条客户端
数据规模:共382688条,分布于15个分类中。
数据格式:6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据,以_!_分割的个字段,从前往后分别是
新闻ID,分类code(见下文),分类名称(见下文),新闻字符串(仅含标题),新闻关键词

数据集地址:https://github.com/fate233/toutiao-text-classfication-dataset

3.全网新闻数据(SogouCA):

来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息

数据格式为

<doc>
<url>页面URL</url>
<docno>页面ID<
  • 1
  • 2
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/72853?site
推荐阅读
相关标签
  

闽ICP备14008679号