赞
踩
百度2020年提供了5个赛道
事件抽取任务
关系抽取任务
本文内容
关系抽取就是根据SPO三元组标注训练模型,使得模型能够自动识别SPO三种类别
任务目标是在给定的文本句子中,根据预先定义的schema集合,抽取出所有满足 schema 约束的 SPO 三元组。schema 定义了关系 P 以及其对应的主体 S 和客体 O 的类别,根据 O 类型的复杂程度可以划分为以下两种:
{
S_TYPE: 人物,
P: 妻子,
O_TYPE: {
@value: 人物
}
}
简单 O 值是最常见关系类型,去年竞赛中所发布的所有 schema 都属于这种类型。为了保持格式统一,简单 O 值类型的 schema 定义通过结构体保存,结构体中只有一个 @value 字段存放真正的 O 值类型。
{
S_TYPE: 娱乐人物,
P: 饰演,
O_TYPE: {
@value: 角色
inWork: 影视作品
}
}
在复杂 O 值类型的定义中,@value 槽位可以认为是该关系的默认 O 值槽位,对于该关系不可或缺,其他槽位均可缺省。
输入:schema约束集合及句子sent
输出: 句子sent中包含的符合给定schema约束的三元组知识Triples
本次竞赛使用的DuIE2.0数据集是业界规模最大的基于schema的中文信息抽取数据集,其包含超过21万中文句子及48个已定义好的schema,表1 中展示了DuIE2.0数据集中包含的43个简单知识的schema及对应的例子,表2 中展示了DuIE2.0数据集中包含的5个复杂知识的schema及对应的例子。数据集中的句子来自百度百科、百度贴吧和百度信息流文本。数据集划分为17万训练集,2万验证集和2万测试集。其中训练集和验证集用于训练,可供自由下载,测试集分为两个,测试集1供参赛者在平台上自主验证,测试集2在比赛结束前1周发布,并将作为最终的评测排名。`
https://github.com/PaddlePaddle/Research/tree/master/KG/DuIE_Baseline
{ "object_type": { "@value": "学校"}, "predicate": "毕业院校", "subject_type": "人物"} { "object_type": { "@value": "人物"}, "predicate": "嘉宾", "subject_type": "电视综艺"} { "object_type": { "inWork": "影视作品", "@value": "人物"}, "predicate": "配音", "subject_type": "娱乐人物"} { "object_type": { "@value": "歌曲"}, "predicate": "主题曲", "subject_type": "影视作品"} { "object_type": { "@value": "人物"}, "predicate": "代言人", "subject_type": "企业/品牌"} { "object_type": { "@value": "音乐专辑"}, "predicate": "所属专辑", "subject_type": "歌曲"} { "object_type": { "@value": "人物"}, "predicate&#
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。