当前位置:   article > 正文

知识类问答数据集资源对外开放:百万级百度知道、社区问答及六大领域级小规模语料概述_社区问答语料下载

社区问答语料下载

随着chatgpt的火热,中文知识类问答数据集由收到诸多关注,其作为高质量的QA数据,可以用于SFT阶段以及pretrain预训练阶段。

本文主要介绍目前开源可下载的两个较大规模的知识类数据集,包括147万百度知道知识类数据集、425万社区问答webtext2019zh知识类数据2大数据集,以及8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据等6大小规模领域问答数据集。

本项目充分借鉴了两个项目的工作,供大家一起参考。

一、147万百度知道知识类数据集

百度知道数据集含有1470142个预先过滤过的、高质量问题和答案,每个问题属于一个类别。总共有492个类别,其中频率达到或超过10次的类别有434个。

{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}

其中,category是问题的类型,title是问题的标题,desc是问题的描述,可以为空或与标题内容一致。

数据样例

  1. {
  2.   "qid""qid_6610724023825624555",
  3.   "category""娱乐-度假旅游",
  4.   "title""请问这起交通事故是谁的责任居多?小车和摩托车发生事故,在无红绿灯 "
  5.   "desc""小车和摩托车发生事故,在无红绿灯的十字路口,小停车看看左右,在觉得安全的情况下刹车慢慢以时速10公里左右的速度靠右行驶过路口,好没有出到十字路口正中时,被左边突然快速行驶过来的摩托车撞在车头前,  摩托车主摔到膝盖和檫伤脸部,请问这起交通事故是谁的责任居多。如果双方都有责任的话,大概各占几成?~\r",   "answer""通过没有信号控制的十字路口,应该减速慢性,让右边的车先行,按你说的,摩托车好像在汽车的左边,所以严格来说可能摩托车全责。当然还要看汽车是否证照齐全,是否饮酒等。具体由交警调查后认定。"
  6. },
  7. {
  8.   "qid""qid_9099219392179923453",  
  9.   "category""教育/科学-理工学科-数学",
  10.   "title""一元一次方程!车间有28名工人,生产一种螺栓和螺帽,一个螺栓的两 ""desc""车间有28名工人,生产一种栓和螺帽,一个螺栓的两头各套上一个螺帽配成一套,每人每天可以生产螺栓12个或螺帽18个,问多少个工人生产螺栓,多少个工人生产螺帽,才能使一天所生产的螺栓和螺帽刚好配套??(要求用一元一次方程解)快!!",
  11.   "answer""设X人生产螺栓,那么生产螺帽的人就是28-X,\r\nX人可生产螺栓12X个,28-X人可生产螺帽18*(28-X)个,因为两个螺帽和一个螺栓配成一套,那么可列方程\r\n12X=18(28-X)/2\r\n12X=(504-18X)/2\r\n12X=252-9X\r\n12X+9X=252\r\n21X=252\r\nX=252/21=12人\r\n那么生产螺帽的就是28-X=28-12=16人。"
  12. },
  13. {
  14.   "qid""qid_3769366928615670292",
  15.   "category""生活-购物""title""开办网上购物网站,需要办理哪些手续?我想开办一个网上购物的网站, "
  16.   "desc""我想开办一个网上的网站,请问需要办理哪些手续?",
  17.   "answer""你的购物网站肯定要挂靠在公司下面\r\n先注册一个公司去吧"
  18. }
  19. {
  20.   "qid""qid_6490739535150628080",
  21.   "category""游戏-完美游戏-诛仙",
  22.   "title""08年28号新诛仙有电信新区吗?我想问下08年28号的新诛仙六道 "
  23.   "desc""我想问下08年28号的新六道轮回会不会开电信新区啊?御剑飞行系统是什么样的?"
  24.   "answer""这个没有御剑飞行,好东西完美会慢慢出的。。。据说飞行速度比坐骑慢,不过是直线距离,还是划算,空中会有怪可以打。。坐骑嘛,完美这个钱还是要赚,所以他的速度应该会比飞行快,而且新出的会有属性加成。"
  25. }

下载地址: https://pan.baidu.com/s/1XK3G8A3du2pme2-N5rtUVw 提取码: fgtf

二、425万社区问答webtext2019zh知识类数据集

社区问答webtext2019zh知识类数据集含有410万个预先过滤过的、高质量问题和回复。每个问题属于一个【话题】,总共有2.8万个各式话题,话题包罗万象。从1400万个原始问答中,筛选出至少获得3个点赞以上的的答案,代表了回复的内容比较不错或有趣,从而获得高质量的数据集。除了对每个问题对应一个话题、问题的描述、一个或多个回复外,每个回复还带有点赞数、回复ID、回复者的标签。

  1. {
  2.     "qid":<qid>,
  3.     "title":<title>,
  4.     "desc":<desc>,
  5.     "topic":<topic>,
  6.     "star":<star>,
  7.     "content":<content>,
  8.     "answer_id":<answer_id>,
  9.     "answerer_tags":<answerer_tags>
  10. }

其中:

qid是问题的id,title是问题的标题,desc是问题的描述,可以为空;
topic是问题所属的话题,star是该回复的点赞个数,content是回复的内容;
answer_id是回复的ID,answerer_tags是回复者所携带的标签。

数据样例

  1. {
  2.   "qid"20619381,
  3.   "title""张献忠血洗四川是否属实?",
  4.   "desc""""topic""明朝"
  5.   "star"3
  6.   "content""四川人历史上有三次大灭绝,现在的川人基本都是湖广填四川填过来的,所以我认为这个基本属实。",
  7.   "answer_id"17447047,
  8.   "answerer_tags""如是我闻"
  9. },
  10. {
  11.   "qid"36651654
  12.   "title""你发现了哪些基于个人经验的神秘规律?",
  13.   "desc""One 里看到的,看看问答社区的朋友们有什么更加有趣的规律。",
  14.   "topic""经验",
  15.   "star"22,
  16.   "content""去吃饭的路比吃饭回来的路长",
  17.   "answer_id"112831136,
  18.   "answerer_tags""大盈若冲"
  19.  },
  20.  {
  21.    "qid"20801703
  22.    "title""为什么大多数楼盘的名字俗到不行?",
  23.    "desc""国内很多楼盘的名字都非常俗,像什么"
  24.    "topic""房地产"
  25.    "star"7,
  26.    "content""房子是卖给大众的,不是专卖给诗人文青的,我见过几个取的很雅的楼盘名字提案,都被毙掉了,因为你要解释这个名字就得一堆文字,不能给大众直观的感觉。另,现在觉得俗是因为见的多了。。。",
  27.    "answer_id"16245275
  28.    "answerer_tags""九丰投资"
  29.   }

下载地址1:链接: https://pan.baidu.com/s/1V2iCtzX-XOuL1Mu1GbRCpA 提取码: n3r7

下载地址2:https://drive.google.com/u/0/uc?id=1u2yW_XohbYL2YAK6Bzc5XrngHstQTf0v&export=download

三、六大细分领域小规模知识问答数据集

当然,出了大规模数据集外,还有较小规模的数据集,包括8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据。

1、8000条保险行业问答数据

下载地址: https://pan.baidu.com/s/1cgYeIrJHAgb8D33H09Zc5w

2、15.6万条电信问答数据

下载地址: https://pan.baidu.com/s/1nrg5SRU3Xy1VN85dd85-vg

3、77万条金融行业问答数据

下载地址: https://pan.baidu.com/s/1z1Rnnk-ubRSvzDu4UvLlIw

4、3.6万条法律问答数据

下载地址: https://pan.baidu.com/s/18Lwq16VBo6wBD_qLb3i33g

5、20.3万条联通问答数据 

下载地址: https://pan.baidu.com/s/1oYi9SfbXpnvreJYGV837Nw

6、4万条农业银行问答数据

 下载地址: https://pan.baidu.com/s/1n-jT9SKkt6cwI_PjCd7i_g

总结

本文主要介绍了目前开源可下载的两个较大规模的知识类数据集,包括147万百度知道知识类数据集、425万社区问答webtext2019zh知识类数据2大数据集,以及8000条保险行业问答数据、15.6万条电信问答数据、77万条金融行业问答数据、20.3万条联通问答数据以及4万条农业银行问答数据等6大小规模领域问答数据集。

知识类QA数据集对于训练一个生成式的QA来说,具有一定的借鉴意义,大家可以基于该数据做更多尝试。

参考文献

1、https://github.com/brightmart/nlp_chinese_corpus
2、https://github.com/SophonPlus/ChineseNlpCorpus/

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/131492
推荐阅读
相关标签
  

闽ICP备14008679号