赞
踩
该任务来源于2019年百度举办的一个竞赛"2019语言与智能技术竞赛",其实它是一个信息抽取的任务,更精确地说是“三元组”抽取任务,示例数据如下:
{ "text": "杜秉离 男,1948年8月生,河南商水县巴村镇娄庄人", "spo_list": [ [ "杜秉离", "出生日期", "1948年8月" ], [ "杜秉离", "出生地", "河南商水县巴村镇娄庄" ] ] }
就是输入一句话,输出这句话所包含的所有三元组。所谓三元组即(s, p, o)形式,s指的是subject,即主实体, 是输入句子的一个片段,o指的是object,即客实体, 也是输入句子的一个片段, p指的是predicate, 表示主实体与客实体之间的关系。在该数据集中,p是给定的,一共50种, 比如实例中的"出生日期","出生地"等等。
通过肉眼观察,数据样本有以下特点:
(1)单个subject对应多个predicate-object(当然,单个subject对应单个predicate-object也包含在其中),比如:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。