赞
踩
https://zhuanlan.zhihu.com/p/581554247
该网址给出了很多关系抽取的公开数据集,
1、ACE实体关系数据集
ACE2005数据集包括英语,阿拉伯语和中文三部分数据,分成广播新闻和新闻专线两部分。 该数据集包含ART、Gen-affiliation在内的6种关系类型,Employment、Founder、Ownership在内的额18种子关系类型。
ACE04语料库共包含451个文档和5 702个关系实例。ACE2005中文数据集包括633个文档、307991个字符。
地址: https://catalog.ldc.upenn.edu/byproject
2、SemEval实体关系数据集
SemEval数据集是2010年国际语义评测大会中Task8任务所使用的数据集,共包括Cause-Effect(因果关系)、Instrument-Agency(操作、使用关系)、Product-Producer(产品-生产者关系)、 Content-Container(空间包含关系)、Entity-Origin(起源关系)、Entity-Destination(导向关系)、 Component-Whole(组件-整体关系)、Member-Collection(成员-集合关系)、Message-Topic(主题关系)等10类关系。
该数据集包括8000个训练样本,2717个测试样本。
地址: https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_semeval.sh
3、FewRel实体关系数据集
FewRel是清华大学于2018年发布的精标注关系抽取数据集,是当前规模最大的中文实体关系数据集。
该数据集包括100个关系类别、70,000个关系实例。每句的平均长度为24.99,一共出现 124,577 个不同的单词/符号。
地址: https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_fewrel.sh
4、Wiki80实体关系数据集
Wiki80是从数据集FewRel上提取的一个关系数据集,共包含location、part of、follows等80种关系,每种关系个数均为700,共56000个样本。
该数据集50400条训练集、5600条验证集。
地址: https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_wiki80.sh
5、NYT10实体关系数据集
NYT10是在基于远程监督的关系抽取任务上最常用的数据集,由NYT corpus 在2010年基于Freebase远程监督得到的,共包含founders、place_of_birth在内的53种关系(包括一种NA),存在一定的噪声。
该数据集包括466876条训练集、55167条验证集以及172448条测试集。
地址: https://github.com/thunlp/OpenNRE/blob/master/benchmark/download_nyt10.sh
6、DuIE2.0实体关系数据集
DuIE2.0是业界规模最大的基于schema的中文关系抽取数据集,来自百度百科、百度贴吧和百度信息流文本。
该数据集包含超过43万三元组数据、21万中文句子及48个预定义的关系类型。
该数据集包括171135个训练集、21055个测试数据,外加80184条混淆数据。
地址: https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/information_extraction/DuIE
7、COAE2016实体关系数据集
CAOE2016关系数据集是CAOE2016 task3任务中用到的一个关系数据集,涉及到任关系类别包括出生日期、出生地、毕业院校、配偶、子女、高管、员工数、创始人、总部、其他共十类关系。
该数据集中包含988个训练数据和483个测试数据。 地址: https://ccir2016.ccnl.scut.edu.cn/caoe_test.php
8、人物实体关系数据集
人物关系抽取数据集是CCKS2019中的一个层级关系分类任务,包括三大类(亲属关系、社交关系、师生关系),四中类(配偶、血亲、姻亲、友谊)、35小类(现夫、前妻)种关系类型。 该数据集包括3841条验证集、287351条训练集以及77092条测试集句子。
地址: https://github.com/SUDA-HLT/IPRE
9、Chinese Literature Text文档级实体关系数据集
Chinese Literature Text是面向中文文学的一个实体关系数据集,标注了物体、人名、地名、时间名、容量名、组织和摘要共7类实体,位于、部分、家庭、概括、社会、拥有、使用、制造、邻接等9类实体关系。
该数据集共计726篇文章,29096句话,超过100000个字符。训练集695篇,验证集58篇、测试集84篇。
地址: https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset
10、DocRED文档级实体关系数据集
DocRED是基于维基百科的文档级关系抽取数据集,数据集中每个文档都被标注了命名实体提及、核心参考信息、句内和句间关系以及支持证据。关系类型涉及科学、艺术、时间、个人生活在内的96种Wikidata关系类型。
该数据集在5053个维基百科文档上进行标注,包含132375个实体和56354个关系事实。
地址: https://github.com/thunlp/DocRE
下载步骤,有些是在github上进行下载,需要在unbuton中,先切换到cd mnt/d/…(d盘文件夹)中执行
mkdir nyt10
wget -P nyt10 https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/benchmark/nyt10/nyt10_rel2id.json
wget -P nyt10 https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/benchmark/nyt10/nyt10_train.txt
wget -P nyt10 https://thunlp.oss-cn-qingdao.aliyuncs.com/opennre/benchmark/nyt10/nyt10_test.txt
即可下载到当前文件中新建的nyt10文件中
如果是
https://github.com/lancopku/Chinese-Literature-NER-RE-Dataset
则我们需要下载github的该项目,或者直接clone到本地中
(需要提前下载git)
然后
git clone https://github.com/lancopku/Chinese-Literature-NER-RE-Datase
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。