当前位置:   article > 正文

命名实体识别主要方法

命名实体识别

命名实体识别主要方法

命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括 人名、地名、机构名、日期时间、专有名词等。通常包括两部分:

  • 实体的边界识别
  • 确定实体的类型(人名、地名、机构名或其他)

NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。因此实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。

学术上NER所涉及的命名实体一般包括3大类(实体类,时间类,数字类)和7小类(人名、地名、组织机构名、时间、日期、货币、百分比)。

现状
  • 命名实体识别只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名)中取得了效果
  • 与其他信息检索领域相比,实体命名评测语料较小,容易产生过拟合
  • 命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要
  • 通用的识别多种类型的命名实体的系统性很差。
中文难点
  • 汉语文本没有类似英文文本中空格之类的显式标示词的边界标示符,命名实体识别的第一步就是确定词的边界,即中文分词
  • 汉语分词和命名实体识别互相影响
  • 除了英语中定义的实体,外国人名译名和地名译名是存在于汉语中的两类特殊实体类型
  • 现代汉语文本,尤其是网络文本,常出现中英文交替使用,此时汉语命名实体识别的任务还包括识别其中的英文命名实体
  • 不同的命名实体具有不同的内部特征,不可能用一个统一的模型来刻画所有的实体内部特征
  • 现代汉语日新月异的发展给命名实体识别也带来了新的困难:(1)标注语料老旧,覆盖不全。譬如说,近年来起名字的习惯用字与以往相比有很大的变化,以及各种复姓识别、国外译名、网络红人、流行用语、虚拟人物和昵称的涌现。(2)命名实体歧义严重,消歧困难

方法

在这里插入图片描述

基于规则和字典的方法

​ 基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息标点符号关键字指示词和方向词位置词(如尾字)中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。

​ 基于规则和词典的方法是命名实体识别中最早使用的方法,它们依赖于手工规则的系统,都使用命名实体库,而且对每一个规则都赋予权值。当遇到规则冲突的时候,选择权值最高的规则来判别命名实体的类型。一般而言,当提取的规则能比较精确地反映语言现象时,基于规则的方法性能要优于基于统计的方法。但基于规则和字典的方法也有其缺陷:

  • 规则往往依赖于具体语言、领域和文本风格,制定规则的过程耗时且难以涵盖所有的语言,特别容易产生错误,系统可移植性差,对于不同的系统需要语言学专家重新书写规则
  • 代价太大,存在系统建设周期长、需要建立不同领域知识库作为辅助以提高系统识别能力等问题

基于统计学习的方法

基于统计机器学习的方法主要包括:**隐马尔可夫模型(Hidden Markov Moder, HMM)、最大熵模型(Maximum Entropy Model, MEM)、支持向量机(Support Vector Machine, SVM)、条件随机场(Conditional Random Field, crf)**等等。在基于机器学习的方法中,NER被当作序列标注问题。利用大规模语料来学习出标注模型,从而对句子的各个位置进行标注。NER 任务中的常用模型包括生成式模型HMM、判别式模型crf等。条件随机场(Conditional Random Field,crf)是NER目前的主流模型。

隐马尔可夫模型

隐马尔科夫模型(hidden Markov model,HMM),描述由一个隐藏的马尔科夫链随机生成不可观测的状态随机序列,再由各个状态(state)生成一个观测(observation)从而产生观测随机序列的过程。隐藏的马尔科夫链随机生成的状态的序列,称作状态序列(state sequence), 它是模型的标签(target);每个状态生成一个观测而产生的观测的随机序列,称为观测序列(observation sequence),它是模型的特征(features)。序列的每一个位置又可以看作是一个时刻。

马尔科夫链

有几种状态之间存在互相转换的概率

想推算出 x 1 → x 2 → x 3 x_1 \to x_2 \to x_3 x1x2x3的概率

这条链通常称为马尔可夫链

求解通常是利用 P ( x 1 ) P ( x 2 ∣ x 1 ) P ( x 3 ∣ x 1 , x 2 ) P(x_1)P(x_2|x_1)P(x_3|x_1,x_2) P(x1)P(x2x1)P(x3x1,x2)条件概率进行求解

隐马尔可夫模型

我们需要计算的东西不能直接获取其概率转化图

是根据另一种我们可见的观测东西去推算另一种东西

HMM五元组:
  • 观测序列-O (能获取的指标) M 个 观 测 值 M个观测值 M
  • 状态序列-I (需要计算的指标) N N N个状态
  • 初始状态概率向量- π \pi π 初始时刻的概率 π 1 ∗ N \pi_{1*N} π1N
  • 状态转移概率矩阵- A A A 状态到状态的转移关系 A N ∗ N A_{N*N} ANN
  • 观测概率矩阵- B B B 状态转移到观测 B N ∗ M B_{N*M} BNM
两个基本假设:

齐次马尔可夫性假设:(状态只依赖于前一个时刻的状态)
P ( i t ∣ i t − 1 , o t − 1 … , i 1 , o 1 ) = P ( i t ∣ i t − 1 ) , t = 1 , 2 , … , T P(i_t|i_{t-1},o_{t-1}\dots,i_1,o_1)=P(i_t|i_{t-1}),t=1,2,\dots,T \\ P(itit1,ot1,i1,o1)=P(itit1),t=1,2,,T
观测独立性假设:(观测只依赖于当前时刻的状态)
P ( o t ∣ i t , o t , i t − 1 , o t − 1 … i 1 , o 1 ) = P ( o t ∣ i t ) P(o_t|i_t,o_t,i_{t-1},o_{t-1}\dots i_1,o_1)=P(o_t|i_t) P(otit,ot,it1,ot1i1,o1)=P(otit)
在这里插入图片描述

四面体、六面体、八面体
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/367954
推荐阅读
相关标签