当前位置:   article > 正文

nlp赛事_关系抽取任务_duie数据集相关处理

duie数据集相关处理

百度2020年提供了5个赛道
事件抽取任务
关系抽取任务
本文内容
关系抽取就是根据SPO三元组标注训练模型,使得模型能够自动识别SPO三种类别

任务目标是在给定的文本句子中,根据预先定义的schema集合,抽取出所有满足 schema 约束的 SPO 三元组。schema 定义了关系 P 以及其对应的主体 S 和客体 O 的类别,根据 O 类型的复杂程度可以划分为以下两种:

  1. 简单 O 值:也就是说 O 是一个单一的文本。例如,「妻子」关系的 schema 定义为:
{
   
    S_TYPE: 人物,
    P: 妻子,
    O_TYPE: {
   
        @value: 人物
	}
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9

简单 O 值是最常见关系类型,去年竞赛中所发布的所有 schema 都属于这种类型。为了保持格式统一,简单 O 值类型的 schema 定义通过结构体保存,结构体中只有一个 @value 字段存放真正的 O 值类型。

  1. 复杂 O 值:也就是说 O 是一个结构体,由多个语义明确的文本共同组成,多个文本对应了结构体中的多个槽位(slot)。例如,「饰演」关系中 O 值有两个槽位 @value 和 inWork,分别表示「饰演的角色是什么」以及「在哪部影视作品中发生的饰演关系」,其 schema 定义为:
{
   
    S_TYPE: 娱乐人物,
    P: 饰演,
    O_TYPE: {
   
        @value: 角色
        inWork: 影视作品
    }
} 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

在复杂 O 值类型的定义中,@value 槽位可以认为是该关系的默认 O 值槽位,对于该关系不可或缺,其他槽位均可缺省。

输入/输出:

输入:schema约束集合及句子sent
输出: 句子sent中包含的符合给定schema约束的三元组知识Triples

数据简介 Dataset

本次竞赛使用的DuIE2.0数据集是业界规模最大的基于schema的中文信息抽取数据集,其包含超过21万中文句子及48个已定义好的schema,表1 中展示了DuIE2.0数据集中包含的43个简单知识的schema及对应的例子,表2 中展示了DuIE2.0数据集中包含的5个复杂知识的schema及对应的例子。数据集中的句子来自百度百科、百度贴吧和百度信息流文本。数据集划分为17万训练集,2万验证集和2万测试集。其中训练集和验证集用于训练,可供自由下载,测试集分为两个,测试集1供参赛者在平台上自主验证,测试集2在比赛结束前1周发布,并将作为最终的评测排名。`

https://github.com/PaddlePaddle/Research/tree/master/KG/DuIE_Baseline

{
   "object_type": {
   "@value": "学校"}, "predicate": "毕业院校", "subject_type": "人物"}
{
   "object_type": {
   "@value": "人物"}, "predicate": "嘉宾", "subject_type": "电视综艺"}
{
   "object_type": {
   "inWork": "影视作品", "@value": "人物"}, "predicate": "配音", "subject_type": "娱乐人物"}
{
   "object_type": {
   "@value": "歌曲"}, "predicate": "主题曲", "subject_type": "影视作品"}
{
   "object_type": {
   "@value": "人物"}, "predicate": "代言人", "subject_type": "企业/品牌"}
{
   "object_type": {
   "@value": "音乐专辑"}, "predicate": "所属专辑", "subject_type": "歌曲"}
{
   "object_type": {
   "@value": "人物"}, "predicate&#
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/365545
推荐阅读
相关标签
  

闽ICP备14008679号