赞
踩
序列标注(Sequence Tagging)是NLP中最基础的任务,应用十分广泛,如分词、词性标注(POS tagging)、命名实体识别(Named Entity Recognition,NER)、关键词抽取、语义角色标注(Semantic Role Labeling)、槽位抽取(Slot Filling)等实质上都属于序列标注的范畴。
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
命名实体识别通常包括两部分:
进行命名实体识别时,通常需要对每个字进行标注,中文为单个字,英文为单词,空格分割。标注的标签类型如下表所示:
类型 | 说明 |
---|---|
B | Begin,代表实体片段的开始 |
I | Internediate,代表实体片段的中间 |
M | Middle,代表实体片段的中间 |
E | End,代表实体片段的结束 |
S | Single,代表实体片段为单个字 |
O | Other,代表字符不为任何实体 |
实体识别三种常见的序列标注方法如下:
样例:
我 O 是 O 李 B-PER 果 I-PER 冻 I-PER , O 我 O 爱 O 中 B-ORG 国 I-ORG , O 我 O 来 O 自 O 四 B-LOC 川 I-LOC 。 O
样例:
我 S
是 S
四 B
川 M
人 E
样例:
我 O 是 O 李 B-PER 果 I-PER 冻 E-PER , O 我 O 爱 O 中 B-LOC 国 E-LOC , O 我 O 来 O 自 O 四 B-LOC 川 E-LOC 。 O
基本简单讲述了实体识别三种标注方法,从上面我们可以看出序列标注的各种标注方法大同小异。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。