BioNLP概述
工具:
GENIA Tagger:GENIA Tagger是一个主要应用于生物医学文本领域的词性标注和浅层语法分析工具,GENIA Tagger在GENIA语料上的词性标记性能F-score达到98%,短语切分(chunking)性能F-score达到93%。
生物医学文献生物命名实体识别
识别实体主要包括基因、蛋白质、DNA和RNA。
评测:JNLPBA、BioCreative
生物实体命名的特点:
-
描述性的命名习惯:如"47 kDa sterol regulatory element binding factor",名字较长(大约18.6%
-
的生物实体名包含四个以上的单词),这样很难确定生物实体名的边界。
-
非标准的命名习惯:生物实体可能有多种拼写形式,如"N-acetylcysteine"、"N-acetyl-cysteine"和"NAcetylCysteine"都是指同一生物实体。功能无关的基因、蛋白质还可能出现同名的情况。生物实体名可以包含数字、希腊或拉丁文字母;可以是大小写相关的。
-
缩写:在生物医学文献中,缩写大量使用,也很不规范,如"Inter1eukin2"的缩写"IL2"是根据音节的得到的,而"palate"的缩写"PAL"是根据音节的得到的,再如"TCF"在不同的文章中可以是"T cell Factor"和"Tissue Culture Fluid"的缩写。
-
包含关系:生物实体名可以是其他生物实体名的子串,如"epidermal growth factor"和"epidermal growth factor receptor"是两个不同的生物实体。
主要方法基于词典、基于规则和基于机器学习的方法。
-
基于词典:在GENIA预料集上75.6% 。 2005年
-
基于规则:利用词性特征、词性分析、语法分析,在medline上面67%左右。
-
基于机器学习:主要有HMM,SVM,最大熵马尔科夫模型(MEMM),CRFs。其中最具优势的是CRFs,CRFs只使用很少特征就可以到70%左右。
生物医学文献实体关系抽取
当前进行蛋白质交互关系抽取主要三种方法:
-
基于自然语言处理的系统:浅层分析和深层分析
-
基于模式匹配的系统:根据预先定义好的模式和匹配规则将标注好词性的序列与结构信息进行匹配。
-
基于机器学习和统计的方法
生物医学文献中的假设发现
方法:
-
从相关MEDLINE记录的自由文本(freetext,即题目和摘要)中,通过自然语言处理技术提取其中的概念作为相关概念。
-
使用基于医学主题词MesH(Medical subject Headings)的相关概念获取方法。
算法:
-
开放发现算法(Open Discovery Algorithm):根据用户给出的查询概念A,通过获取相关的中间概念B,再获取与B相关的概念C,从而找到以前未曾发现的A与C的关联,即A->B->C。
-
闭合发现算法(Closed Discovery Algorithm):根据用户给出的查询概念A和概念C,找到把它们联系起来的中间概念B,即A->B<-C,从而对新发现的A与C的关联进行验证。