赞
踩
句子经过分词、词性标注之后,已有了初步结构化的趋势。下游应用如果更加关注某类词汇,可以直接根据词性标签来找到它们。但词性标注的作用范围仅限于单个单词,多个单词构成的复合词通常需要在分词和词性标注的结果之上,进行一次复合词的识别,称为命名实体识别。
1.1 命名实体
文本中描述实体的词汇,如人名、地名、组织名等;它是人们最关注的词汇,往往也是信息抽取任务的焦点。
各个领域都有自己的命名实体,各取所需。但所有的命名实体都具备共性:
数量无穷、构词灵活、类别模糊。
1.2 命名实体识别
识别出句子中命名实体的边界与类别的任务称为命名实体识别,它是一个统计为主、规则为辅的任务。
对于规则性比较强的命名实体,先通过正则表达式进行匹配,作为预处理过程进行。
对于较短的命名实体,通过分词确定边界,通过词性标注模块确定类别,为此只需要普通的分词词性标注模块及相应的语料库,不需要专门的命名实体模块与语料库。
对于复合词的命名实体,则需要一个专门的命名实体识别模块。
2.1 基于规则的音译人名识别
2.2 基于规则的日本人名识别
2.3 基于规则的数词英文识别
3.1 1998年《人民日报》语料库
3.2 微软命名实体识别语料库
角色标注框架是一个统计命名实体识别框架,是为构成命名实体的短词语打标签,标签序列满足某种模式则识别为某种命名实体。规则系统根据词典的匹配规则来确定,统计方法可根据隐马尔可夫模型的预测来确定。
该框架中劫色标注模块的输入是分词模块的输出,两个模块都是由隐马尔可夫模型驱动,所以称为层叠隐马尔可夫模型。根据识别目标的不同,角色标注所使用的标注集也不同。
4.1 基于角色标注的中国人名识别
4.2 基于角色标注的地名识别
4.3 基于角色标注的机构名识别
角色标注框架也是一种序列标注,但是其标注集需要根据具体问题手工编制,费时费力,不够灵活。因此出现了灵活的序列标注框架。
命名实体识别实际上可以看作分词与词性标注任务的集成,命名实体的边界可以通过{B,M,E,S}确定,类别可以通过B-nt等附加类别的标签来确定。
5.1 特征提取
特征模板
转移特征 | 词语特征 | 词性特征 |
y(t-1) | word (t-2) | |
word(t-1) | tag(t-1) | |
word(t) | tag(t) | |
word(t+1) | tag(t+1) | |
word(t+2) |
其中,t表示当前正在提前特征的位置,y表示标签,word表示单词,tag表示词性。
5.2 基于隐马尔可夫模型序列标注的命名实体识别
5.3 基于感知机序列标注的命名实体识别
5.4 基于条件随机场序列标注的命名实体识别
5.5 命名实体识别标准化评测
模板特征会影响准确率,选用庞大复杂的模板特征,会牺牲效率提高了准确率。
内部程序算法、外部语料库都会影响准确率。
通常而言,当语料库较小时,应当采用简单的特征模板,以防止模型过拟合;当语料库较大时,建议使用更多特征,以提高准确率。当特征模板固定时,语料库越大,准确率越高。
6.1 标注领域命名实体识别语料库
6.2 训练领域模型
作为监督学习的应用,命名实体识别离不开标注语料库、设计特征模板、训练、评估准确率等一套机器学习流程。将命名实体识别模块与中文分词模块、词性标注模块组合在一起,可以形成一个词法分析器。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。