【自然语言处理】之——实体关系抽取数据集_关系抽取 duie2.0数据集详解

作者：AllinToyou | 2024-03-31 01:53:45

踩

关系抽取 duie2.0数据集详解

1.百度数据集Duie2.0

Duie2.0数据集是一个面向实体关系抽取任务的开放式中文数据集。它是由中国科学院计算技术研究所推出的，用于促进自然语言处理和知识图谱的研究和应用。
该数据集包含了来自新闻、百度百科、微博等多个领域的文本数据。每个样本都由一个实体、关系和上下文组成，旨在让机器理解实体之间的关系。

2.CBLUE信息医学抽取

CMEIE
中文NER数据集整理 - 知乎 (zhihu.com)
中文医疗信息处理评测基准CBLUE_数据集-阿里云天池 (aliyun.com)

3.ACE2005（收费）

ACE2005数据集是一个面向命名实体识别、关系抽取和事件识别任务的英文数据集。它是Automatic Content Extraction（ACE）项目的一部分，由美国国防部高级研究计划局（DARPA）赞助，用于促进信息抽取和文本分析领域的研究和发展。

ACE2005数据集包含了来自新闻文本、通讯录、广播新闻和报纸等多个来源的文本数据。每个样本都包含了实体、关系和事件等信息。实体指代文本中具体的人物、组织、地点等实际存在的事物；关系表示实体之间的关联关系；事件表示文本中发生的具体事件。

4.Chinese Literature NER RE（长文本）

Chinese Literature NER RE 数据集提供了已经标注了命名实体和实体关系的中文文学文本样本。它为研究人员和开发者提供了一个用于研究和构建中文文学领域相关任务的基准数据集。使用该数据集可以通过机器学习和自然语言处理技术，开发出在中文文学领域中进行命名实体识别和关系抽取的模型。
lancopku/Chinese-Literature-NER-RE-Dataset: A Discourse-Level Named Entity Recognition and Relation Extraction Dataset for Chinese Literature Text (github.com)

5.MultiTACRED(中文部分较少）

MultiTACRED Dataset | Papers With Code
The TAC Relation Extraction Dataset
Datasets:DFKI-SLT_multitacred
MultiTACRED 是一个多语言文本分类和关系抽取数据集，用于处理复杂的文本推理任务。它包含了来自新闻、维基百科、论坛和书籍等多种来源的多语言文本数据。
MultiTACRED 数据集中的文本样本以 “关系-句子” 对的形式组织。每个样本包含了两个实体之间的关系以及描述这种关系的句子。其中的关系来自 TACRED 数据集，该数据集从维基百科和新闻中提取并注释了各种实体关系。