赞
踩
1 github 链接
https://github.com/SophonPlus/ChineseNlpCorpus 包括:情感分类,推荐,问答
https://github.com/CLUEbenchmark/CLUEDatasetSearch NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等 10 大类共 142 个数据集
https://github.com/brightmart/nlp_chinese_corpus Large Scale Chinese Corpus for NLP
https://github.com/crownpku/Awesome-Chinese-NLP#corpus-中文语料 中文语料
https://github.com/InsaneLife/ChineseNLPCorpus 中文自然语言处理数据集
2 新闻分类
清华新闻分类语料:
http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5
rnn和cnn实验:https://github.com/
gaussic/text-classification-cnn-rnn
中科大新闻分类语料库:http://www.nlpir.org/?action-viewnews-itemid-145
3 实体识别&词性标注
boson数据。https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson
1988年人民日报 https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao
MSRA微软亚洲研究院数据集。https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA
SIGHAN Bakeoff 2005:一共有四个数据集,包含繁体中文和简体中文,下面是简体中文分词数据。
MSR: http://sighan.cs.uchicago.edu/bakeoff2005/
PKU :http://sighan.cs.uchicago.edu/bakeoff2005/
4 搜索
5 百科
最全中华古诗词数据集,下载地址:https://github.com/chinese-poetry/chinese-poetry
保险行业语料库 下载地址:https://github.com/Samurais/insuranceqa-corpus-zh
7 预训练:(词向量or模型)
8 中文完形填空数据集 下载地址:https://github.com/ymcui/Chinese-RC-Dataset
9 中文数据集平台
http://www.nlpir.org/?action-category-catid-28
https://github.com/crownpku/Small-Chinese-Corpus
10 中文 NLP 数据集搜索:https://www.cluebenchmarks.com/dataSet_search.html
11 中文翻译nmt数据集
wmt 系列数据
IWSLT(国际口语研讨会)数据集:
总数据集下载: https://github.com/pengr/iwslt15/blob/master/en-de.tgz
UM-Corpus: A Large English-Chinese Parallel Corpus 中葡翻译语料
OPUS:大规模中英平行语料
例如以下数据集 OpenSubtitles2018 MultiUN
AI challenger (英中翻译 规模最大的口语领域英中双语对照数据集)
https://github.com/didi/ChineseNLP/blob/master/docs/machine_translation.md
GitHub - brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
THULAC:https://github.com/thunlp/THULAC :包括中文分词、词性标注功能。
HanLP:https://github.com/hankcs/HanLP
哈工大LTP: https://github.com/HIT-SCIR/ltp
NLPIR :https://github.com/NLPIR-team/NLPIR
jieba :https://github.com/yanyiwu/cppjieba
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。