赞
踩
1. 摘要
基于上次分享的分词技术介绍,本次继续分享在分词后与词相关联的两个技术:词性标注和命名实体识别。词性是词汇基本的语法属性,也可以称为词类。词性标注的行为就是在给定的中文句子中判定每个词的语法作用,确定每个词的词性并加以标注。命名实体识别在信息检索方面有着很重要作用,检测出代表性的名称,下面我们深入了解下这两个技术。
2. 词性标注
首先简单举例说明一下中文词性标注的应用效果。例如,表示地点、事物、姓名的这类词语称为名词,表示状态变化的称为动词,描述或修饰名词的称为形容词。示例句子:“中国是非常繁荣稳定的国家”。对这句话做词性标注结果如下:“中国/名词 是/动词 非常/副词 繁荣/形容词 稳定/形容词 的/结构助词 国家/名词”。
在中文句子中,一个同音同形的词处在不同的上下文时,语法的属性是截然不同的,由于这个原因,这就给中文词性标注带来很大的困难。但是从中文词语整体的使用情况来看,大多数的词语,尤其是实词,一般是有一到二个词性,并且通过统计发现,其中一个词性的使用频次远大于另外词性。所以即使每次都将高频的词性作为其词性,也能够实现很高的准确率。只要我们对常用词的词性能够进行很精准的识别,使用时也能够覆盖绝大多数的场景。
词性标注最简单的方法就是从语料库中统计每个词所对应的高频词性,将其作为默认的词性,但基于这种方法的词性标注还是有提醒空间的。目前较为主流的方法和分词相似,将句子的词性标注作为一个序列标注问题看待,这样隐马尔可夫模型、条件随机场模型都可以应用于词性标注任务中。
词性标注规范表
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。