赞
踩
这个项目的本质是-----------医学文本的实体关系联合抽取问题,既要解决命名实体识别,又要解决关系分类问题。使用RoFormerV2模型作为预训练模型,GPLinker作为下游模型,在Embedding层添加FGM对抗训练增加模型性能。
CHIP-2020-2中文医学文本实体关系抽取数据集
数据集包含儿科训练语料和百种常见疾病训练语料,儿科训练语料来源于518种儿科疾病,百种常见疾病训练语料来源于109种常见疾病。
近7.5万三元组数据,2.8万疾病语句和53种定义好的schema。
数据集格式
{ "spo_list" : [ { "Combined" : true, "object" : { "@value" : "外照射" }, "object_type" : { "@value" : "其他治疗" }, "predicate" : "放射治疗", "subject" : "慢性胰腺炎", "subject_type" : "疾病" }, { "Combined" : true, "object" : { "@value" : "外照射" }, "object_type" : { "@value" : "其他治疗" }, "predicate" : "放射治疗", "subject" : "非肿瘤性疼痛", "subject_type" : "疾病" } ], "text" : "慢性胰腺炎@### 低剂量放射 自1964年起,有几项病例系列报道称外照射 (5-50Gy) 可以有效改善慢性胰腺炎患者的疼痛症状。慢性胰腺炎@从概念上讲,外照射可以起到抗炎和止痛作用,并且已经开始被用于非肿瘤性疼痛的治疗。" }
临床实践文本可能不提及主题疾病---每句之前增加主题疾病实体,并以@和原文分割
Combined-----三元组来源上下多个句子,拼接在一起
”text”----记录来源文本
SPO表示法。S-头实体,O-尾实体,P-Predicate,即「关系(Relation)」更专业的叫法。
{ "spo_list" : [ { "Combined" : true, "object" : "外照射", "object_type" : "其他治疗", "predicate" : "放射治疗", "subject" : "慢性胰腺炎", "subject_type" : "疾病" }, { "Combined" : true, "object" : "外照射", "object_type" : "其他治疗", "predicate" : "放射治疗", "subject" : "非肿瘤性疼痛", "subject_type" : "疾病" } ], "text" : "慢性胰腺炎@### 低剂量放射 自1964年起,有几项病例系列报道称外照射 (5-50Gy) 可以有效改善慢性胰腺炎患者的疼痛症状。慢性胰腺炎@从概念上讲,外照射可以起到抗炎和止痛作用
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。