赞
踩
中文:
1)https://link.zhihu.com/?target=http%3A//nlp.stanford.edu/projects/kvret/kvret_dataset_public.zip 斯坦福数据集
2)Cornell Movie Dialogs:电影对话数据集,下载地址:http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
3) Ubuntu Dialogue Corpus:Ubuntu日志对话数据,下载地址:https://arxiv.org/abs/1506.08909
4) OpenSubtitles:电影字幕,下载地址:http://opus.lingfil.uu.se/OpenSubtitles.php
5) Twitter:twitter数据集,下载地址:https://github.com/Marsan-Ma/twitter_scraper
6) Papaya Conversational Data Set:基于Cornell、Reddit等数据集重新整理之后,好像挺干净的,下载链接:https://github.com/bshao001/ChatLearner
7)https://github.com/niderhoff/nlp-datasets/blob/master/README.md 自然语言处理的免费/公开数据集(https://zhuanlan.zhihu.com/p/35423943 资源比较多,可以看看)
相关数据集的处理代码或者处理好的数据可以参见下面两个github项目:
DeepQA
chat_corpus
others:
电影字幕网站:https://www.zimuku.cn/
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。