赞
踩
该项目立足医药领域,以垂直型医药网站为数据来源,以疾病为核心,构建起一个包含 7 类规模为 4.4 万的知识实体,11 类规模约 30 万实体关系的知识图谱。 原始数据包含 8000 多种病,和肝病相关的有 200 多种病。
该项目的数据来自垂直类医疗网站寻医问药,使用爬虫脚本 data_spider.py,以结构化数据为主,构建了以疾病为中心的医疗知识图谱,实体规模 4.4 万,实体关系规模 30 万。schema 的设计根据所采集的结构化数据生成,对网页的结构化数据进行 xpath 解析。
项目的数据存储采用 Neo4j 图数据库,问答系统采用了规则匹配方式完成,数据操作采用 neo4j 声明的 cypher。
项目的不足之处在于疾病的引发原因、预防等以大段文字返回,这块可引入事件抽取,可将原因结构化表示出来。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。