当前位置:   article > 正文

中文短文本摘要数据集_中文短句数据集

中文短句数据集

背景

由于目前没有公开的免费的中文短文本摘要数据集,正好在之前的项目中有收集过这样的数据。现在把之前整理的数据公开,所有人都可以免费下载使用,希望能成为一个有用的中文短文本摘要数据集。

英文名称

Chinese Short Text Summarization Dataset

收集方式

数据来源于新浪微博主流媒体发布的微博。
例如:
微博示例一
微博示例二
微博示例三
如上的三条微博所示中,红框中的文本作为短文本的摘要,其他的内容作为短文本的内容。

数据量

在这个版本中,一共 679898 条数据,分为两个文件:

文件名称 说明
train_text.txt 短文本的内容,约100-200字
train_l
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/479966
推荐阅读
相关标签
  

闽ICP备14008679号