赞
踩
中文医疗信息处理挑战榜CBLUE(Chinese Biomedical Language Understanding Evaluation)是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起,由阿里云天池平台承办,并由医渡云(北京)技术有限公司、腾讯天衍实验室、平安医疗科技、阿里夸克、北京大学、郑州大学、鹏城实验室、哈尔滨工业大学(深圳)、同济大学、中山大学、复旦大学、华东师范大学等开展智慧医疗研究的单位共同协办,旨在推动中文医学NLP技术和社区的发展。
官网地址: https://tianchi.aliyun.com/cblue
论文: https://arxiv.org/pdf/2106.08087.pdf
Github: https://github.com/CBLUEbenchmark/CBLUE
CBLUE 1.0包括
CBLUE2.0在1.0的基础上新增了医疗对话、医学专家编写的电子病历和医学影像报告,并引入了生成类任务。
CBLUE2.0包括
本评测任务为面向中文医学文本的命名实体识别,即给定schema及句子sentence,对于给定的一组纯医学文本文档,任务的目标是识别并抽取出与医学临床相关的实体,并将他们归类到预先定义好的类别。将医学文本命名实体划分为九大类,包括:疾病(dis),临床表现(sym),药物(dru),医疗设备(equ),医疗程序(pro),身体(bod),医学检验项目(ite),微生物类(mic),科室(dep)。标注之前对文章进行自动分词处理,所有的医学实体均已正确切分。
给定schema约束集合及句子sentence,其中schema定义了关系Predicate以及其对应的主体Subject和客体Object的类别,例如:
(“subject_type”:“疾病”,“predicate”: “药物治疗”,“object_type”:“药物”)
(“subject_type”:“疾病”,“predicate”: “实验室检查”,“object_type”:“检查”)。
任务要求参评系统自动地对句子进行分析,输出句子中所有满足schema约束的SPO三元组知识Triples=[(S1, P1, O1), (S2, P2, O2)…]。
下表中展示了数据集中包含的53个schema,包含10种同义词子关系(表1中合并为一种),43种其他子关系。详细的53种schema见下载文件中的53_schema.jsonl。
本次任务主要目标是从中文电子病历中挖掘出临床发现事件。即给定一段现病史或者医学影像所见报告,要求从中抽取临床发现事件的四个属性: 解剖部位、主体词、描述词,以及发生状态:
主体词:指患者的电子病历中的疾病名称或者由疾病引发的症状,也包括患者的一般情况如饮食,二便,睡眠等。主体词尽可能完整并是专有名词,比如“麻木, 疼痛,发烧,囊肿”等;专有名词,如“头晕”,晕只能发生在头部,“胸闷”,闷只能发生在胸部,所以不进行拆分,保留完整的专有名词。涉及泛化的症状不做标注,如“无其他不适”,句子中的“不适”不需要标注,只针对具体的进行标注。注意:有较小比例的主体词会映射到ICD标准术语,所使用的ICD的版本为“国际疾病分类 ICD-10北京临床版v601.xIsx”(见下载文件)。
描述词:对主体词的发生时序特征、轻重程度、形态颜色等多个维度的刻画,也包括疾病的起病缓急、突发。
解剖部位:指主体词发生在患者的身体部位,也包括组织,细胞,系统等,也包括部位的方向和数量。
发生状态:“不确定”或“否定”,肯定的情况不标注发生状态。
本次评测任务主要目标是针对中文电子病历中挖掘出的真实诊断实体进行语义标准化。 给定一诊断原词,要求给出其对应的诊断标准词。所有诊断原词均来自于真实医疗数据,并以《国际疾病分类 ICD-10 北京临床版v601》词表为标准进行了标注。
临床试验是指通过人体志愿者也称为受试者进行的科学研究,目的是确定一种药物或一项治疗方法的疗效、安全性以及存在的副作用,对于促进医学发展和提高人类健康都起到关键的作用。目前这类研究大多集中在英文临床试验筛选标准及英文电子健康记录数据,针对中文电子健康数据的研究也以及取得了很多进展,然而与中文临床试验筛选标准的自然语言处理研究很少。本任务就是在这样的背景下产生的,并在CHIP2019会议发布了评测任务(http://cips-chip.org.cn/)。在本次评测中,我们给定事先定义好的44种筛选标准语义类别(详见附件的category.xlsx)和一系列中文临床试验筛选标准的描述句子,参赛者需返回每一条筛选标准的具体类别。
在本次评测中,医学问题分为 病情诊断(diagnosis)、病因分析(cause)、治疗方案(method)、就医建议(advice)、指标解读(metric_explain)、疾病描述(disease_express)、后果表述(result)、注意事项(attention)、功效作用(effect)、医疗费用(price)、其他(other) 共11种类型。
迁移学习是自然语言处理中的重要一环,其主要目的是通过从已学习的相关任务中转移知识来改进新任务的学习效果,从而提高模型的泛化能力。
本次评测任务的主要目标是针对中文的疾病问答数据,进行病种间的迁移学习。具体而言,给定来自5个不同病种的问句对,要求判定两个句子语义是否相同或者相近。category表示问句对的病种名称,分别对应:diabetes-糖尿病,hypertension-高血压,hepatitis-乙肝,aids-艾滋病,breast_cancer-乳腺癌。label表示问句之间的语义是否相同。若相同,标为1,若不相同,标为0。
在医疗搜索中,评估搜索词(Query)表述主题和落地页标题(Title)表述主题的匹配程度是一项重要的任务,关系到搜索结果的准确性。Query的主题是指query的专注点,用户在输入query是希望找到与query主题相关的网页。该任务需要判断Query主题和Title主题是否一致及达到多大程度上的一致,本任务数据集就是在这样的背景下产生的。Query和Title的相关度共分为4档(0-3),0分为最差,3分为匹配最好。
3分:表示主题完全匹配。
2分:表示主题部分匹配。
1分:表示主题很少匹配,有一些参考价值。
0分:表示主题完全不匹配或者没有参考价值。
查询词之间的相关性是评估两个Query所表述主题的匹配程度,即判断Query-A和Query-B是否发生转义,以及转义的程度。Query即搜索词,包括用户在搜索框中输入的词、数字、符号等内容,Query的主题是指query的专注点,用户在输入query是希望找到与query主题相关的网页。判定两个查询词之间的相关性是一项重要的任务,常用于长尾query的搜索质量优化场景,本任务数据集就是在这样的背景下产生的。Query和Query的相关度共分为3档(0-2),0分为相关性最差,2分表示相关性最好。
2分:表示A与B等价,表述完全一致。
1分: B为A的语义子集,B指代范围小于A。
0分:B为A的语义父集,B指代范围大于A; 或者A与B语义毫无关联。
本次标注数据全部来源于春雨医生的互联网在线问诊的公开数据。阴阳性的定义一般认为是患者主诉病情描述和医生诊断判别中的阴性和阳性。SOAP (Subjective, Objective, Assessment, Plan) 评估记录法是目前国际上最常用以问题为导向的医学记录方法,阴阳性需要处理主要是S和A中相关的实体的判别。数据预处理是先对齐进行SOAP分类,然后对S和A的部分进行NER识别,然后在此基础上进行阴阳性的标注。
注:并不是对话中所有的临床发现的NER的部分都需要进行识别和标注,只需要对表述病人主客观存在的临床发现,以及对应的诊断结果进行判别。
为了促进智能医疗咨询系统(Intelligent Medical Consultation System, IMCS),复旦大学大数据学院在复旦大学医学院专家的指导下构建了 IMCS21 数据集,该数据集收集了真实的在线医患对话,并进行了多层次(Multi-Level)的人工标注,包含命名实体、对话意图、症状标签、医疗报告等,并在CCL 2021会议上举办了第一届智能对话诊疗评测比赛 (http://www.fudan-disc.com/sharedtask/imcs21/index.html)。IMCS数据集在CBLUE评测基准继续开放,希望可以共同促进智能医疗、医学语言理解等领域的发展。
目前,我国每千人口执业医师数仅为2.44人,医疗资源分配不均、医生工作辛苦、患者就诊等待时间长等问题长期存在。面向智能问诊的医疗对话系统能够实时与患者进行沟通,收集患者信息,从而提升临床诊断的效率、减轻医生的负担、提高复诊积极性,有着广阔的应用前景[5,6,7] 。本任务“蕴含实体的中文医疗对话生成”就是在这样的背景下产生的,主要涉及对话系统构建、自然语言生成、领域知识融合等方向,并在CCKS2021会议发布了评测任务(https://www.biendata.xyz/competition/ccks_2021_mdg)。
随着"互联网+医疗"的迅速发展,在线问诊平台逐渐兴起,在线问诊是指医生通过对话和患者进行病情的交流、 疾病的诊断并且提供相关的医疗建议。在政策和疫情的影响之下,在线问诊需求增长迅速。然而医生资源是稀缺的,由此促使了自动化医疗问诊的发展,以人机对话来辅助问诊过程。为了促进智能医疗咨询系统(Intelligent Medical Consultation System, IMCS),复旦大学大数据学院在复旦大学医学院专家的指导下构建了 IMCS21 数据集,该数据集收集了真实的在线医患对话,并进行了多层次(Multi-Level)的人工标注,包含 命名实体(NER)、对话意图(DAC)、症状标签(SR)、医疗报告(MRG) 等。IMCS数据集在CBLUE评测基准继续开放,希望可以共同促进智能医疗、医学语言理解等领域的发展。
CMeEE-V2相比原始的CMeEE数据集,主要变化如下:
修复少量原始数据标注不一致的情况。
召回部分漏标的实体。
目前CMeEE-V2任务已经在CBLUE2.0开放,感兴趣的参赛选手可以下载数据进行模型训练和结果提交,成绩不计入到CBLUE2.0的总得分。在CBLUE下一个版本,CMeEE-V2数据集将替代现有的IMCS21数据集,得分正式计入CBLUE的总分项。
本次评测数据均来自阿里夸克搜索真实的业务场景,其中整个搜索内容集合按照内容的类别随机抽样保证了数据的多样性,搜索Query和相关的内容来自点击行为日志并通过模型+人工确认的方式完成校验保证了训练和测试数据的准确性。
Text2DT的任务目标是从给定的医疗文本抽取出诊疗决策树。诊疗决策树表示简化的决策过程,即根据条件判断的不同结果做出下一个条件判断或决策。一旦做出决策,诊疗过程终止。因此,Text2DT将诊疗决策树定义为由条件节点和决策节点组成的二叉树(见图1)。本任务既要求模型能够将文本中的核心实体和关系挖掘出来,也需要将这些信息进行串联,形成一个完整的决策流程。
本任务包括三个子任务:1、触发词实体识别;2、语义角色识别,3、“基因,功能变化,疾病”知识发现:
任务1是传统意义下的命名实体识别,用以识别十二类与“基因-疾病”有关的分子对象及其触发词实体,包括Var, MPA, Interaction, Pathway, CPA, Reg, PosReg, NegReg, Disease, Gene, Protein, 和Enzyme。
任务2是一个语义角色识别任务,语义角色包括ThemeOf,和CauseOf。该任务捕捉实体之间的语义依赖关系,用以构建“基因-疾病”关联。
任务3是针对“基因-疾病”的关联机理的预测任务,可依据任务1和任务2的关联关系,预测“基因-功能改变-疾病”的关联机理。此处,功能改变包含4种对突变基因的语义描述:功能丧失(LOF)、功能获得(GOF)、功能调节(REG)、和功能的复合变化(COM)。
任务对象定义来源于AGAC(Active Gene Annotation Corpus)活跃基因注释语料库,该语料库主要用以挖掘突变引起的“基因-疾病”关联机理。AGAC语料库包括四类分子对象、八类触发词实体,两个语义角色,以及四种用以描述“基因-疾病”关联机理的功能变化。
中文医学命名体识别任务:CMeEE_test.json
中文医学文本实体关系抽取任务:CMeIE_test.jsonl
临床发现事件抽取任务:CHIP-CDEE_test.json
临床术语标准化任务: CHIP-CDN_test.json
临床试验筛选标准断文本分类: CHIP-CTC_test.json
平安医疗科技疾病问答迁移学习:CHIP-STS_test.json
医疗搜索查询词意图分类:KUAKE-QIC_test.json
医疗搜索查询词-页面标题相关性:KUAKE-QTR_test.json
医疗搜索查询词-查询词相关性:KUAKE-QQR_test.json
医疗对话临床发现阴阳性判定:CHIP-MDCFNPC_test.jsonl
蕴含实体的中文医疗对话生成:MedDG_test.json
智能诊疗对话命名体识别:IMCS-NER_test.json
智能诊疗对话意图识别:IMCS-IR_test.json
智能诊疗对话症状识别:IMCS-SR_test.json
智能诊疗对话医学报告生成:IMCS-MRG_test.json
智能诊疗对话命名体识别-V2:IMCS-V2-NER_test.json
智能诊疗对话意图识别-V2:IMCS-V2-DAC_test.json
智能诊疗对话症状识别-V2:IMCS-V2-SR_test.json
智能诊疗对话医学报告生成-V2:IMCS-V2-MRG_test.json
中文医学命名体识别任务-V2:CMeEE-V2_test.json
医学段落检索任务:KUAKE-IR_test.tsv
临床诊断决策树抽取任务:Text2DT_test.json
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。