自然语言处理学习笔记八（命名实体识别）_自然语言处理中的tag一般表示什么

作者：喵喵爱编程 | 2024-08-11 00:58:14

踩

自然语言处理中的tag一般表示什么

句子经过分词、词性标注之后，已有了初步结构化的趋势。下游应用如果更加关注某类词汇，可以直接根据词性标签来找到它们。但词性标注的作用范围仅限于单个单词，多个单词构成的复合词通常需要在分词和词性标注的结果之上，进行一次复合词的识别，称为命名实体识别。

1.1 命名实体

文本中描述实体的词汇，如人名、地名、组织名等；它是人们最关注的词汇，往往也是信息抽取任务的焦点。

各个领域都有自己的命名实体，各取所需。但所有的命名实体都具备共性：

数量无穷、构词灵活、类别模糊。

1.2 命名实体识别

识别出句子中命名实体的边界与类别的任务称为命名实体识别，它是一个统计为主、规则为辅的任务。

对于规则性比较强的命名实体，先通过正则表达式进行匹配，作为预处理过程进行。

对于较短的命名实体，通过分词确定边界，通过词性标注模块确定类别，为此只需要普通的分词词性标注模块及相应的语料库，不需要专门的命名实体模块与语料库。

对于复合词的命名实体，则需要一个专门的命名实体识别模块。

2.1 基于规则的音译人名识别

2.2 基于规则的日本人名识别

2.3 基于规则的数词英文识别

3.1 1998年《人民日报》语料库

3.2 微软命名实体识别语料库

角色标注框架是一个统计命名实体识别框架，是为构成命名实体的短词语打标签，标签序列满足某种模式则识别为某种命名实体。规则系统根据词典的匹配规则来确定，统计方法可根据隐马尔可夫模型的预测来确定。

该框架中劫色标注模块的输入是分词模块的输出，两个模块都是由隐马尔可夫模型驱动，所以称为层叠隐马尔可夫模型。根据识别目标的不同，角色标注所使用的标注集也不同。

4.1 基于角色标注的中国人名识别

4.2 基于角色标注的地名识别

4.3 基于角色标注的机构名识别

角色标注框架也是一种序列标注，但是其标注集需要根据具体问题手工编制，费时费力，不够灵活。因此出现了灵活的序列标注框架。

命名实体识别实际上可以看作分词与词性标注任务的集成，命名实体的边界可以通过{B,M,E,S}确定，类别可以通过B-nt等附加类别的标签来确定。

5.1 特征提取

特征模板

其中，t表示当前正在提前特征的位置，y表示标签，word表示单词，tag表示词性。

5.2 基于隐马尔可夫模型序列标注的命名实体识别

5.3 基于感知机序列标注的命名实体识别

5.4 基于条件随机场序列标注的命名实体识别

5.5 命名实体识别标准化评测

模板特征会影响准确率，选用庞大复杂的模板特征，会牺牲效率提高了准确率。

内部程序算法、外部语料库都会影响准确率。

通常而言，当语料库较小时，应当采用简单的特征模板，以防止模型过拟合；当语料库较大时，建议使用更多特征，以提高准确率。当特征模板固定时，语料库越大，准确率越高。

6.1 标注领域命名实体识别语料库

6.2 训练领域模型

作为监督学习的应用，命名实体识别离不开标注语料库、设计特征模板、训练、评估准确率等一套机器学习流程。将命名实体识别模块与中文分词模块、词性标注模块组合在一起，可以形成一个词法分析器。

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop】