赞
踩
由于目前没有公开的免费的中文短文本摘要数据集,正好在之前的项目中有收集过这样的数据。现在把之前整理的数据公开,所有人都可以免费下载使用,希望能成为一个有用的中文短文本摘要数据集。
Chinese Short Text Summarization Dataset
数据来源于新浪微博主流媒体发布的微博。
例如:
如上的三条微博所示中,红框中的文本作为短文本的摘要,其他的内容作为短文本的内容。
在这个版本中,一共 679898 条数据,分为两个文件:
文件名称 | 说明 |
---|---|
train_text.txt | 短文本的内容,约100-200字 |
train_l |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。