赞
踩
1.1 什么是词性
词性是单词的语法分类,同一个类别的词语具有相似的语法性质,所有词性的集合称为词性标注集。不同的语料库采用不同的词性标注集,一般含有形容词、动词、名词等常见词性。
1.2 词性的用处
词性的作用就是提供词语的抽象表示,词性支撑许多的高级应用,当下游应用遇到OOV时,可以通过OOV的词性猜测用法。
1.3 词性标注
它是指为句子中的每个单词预测一个词性标签的任务,是自然语言处理中一项重要的基础任务。
1.4 词性标注模型
由于词性标注的两个难点(一是一个单词多个词性,一个具体语境一定是唯一词性;二是OOV是自然语言处理的难题),为此使用序列标注模型解决这两个难点。
同中文分词一样,语言学界在标注规范上存在分歧,导致目前还没有一个被广泛接受的汉语词性划分标准。无论是词性划分的颗粒度,还是词性标签的不统一。故有了各种互不兼容的语料库。
2.1 《人民日报》语料库与PKU标注集
2.2 国家语委语料库与863标注集
2.3 《诛仙》语料库与CTB标注集
3.1 基于隐马尔可夫模型的词性标注
3.2 基于感知机的词性标注
3.3 基于条件随机场的词性标注
3.4 词性标注评测
在工程上,许多用户希望将特定的一些词语打上自定义的标签,称为自定义词性。
4.1 朴素实现
基于词典的规则系统,用户将自己关系的词语以及自定义词性以词典的形式挂载,从而在各种词法分析器中得到相应的词性。
4.2 标注语料
词性的确定是需要根据上下文语境,需要通过统计模型来进行,也是统计模型所擅长的。为了实现自定义词性,最佳实践就是标注一份语料库,然后训练一个统计模型。
词性标注所需的原料无非就是一些语料以及一份特征模板,根据语料库的规模、特征模板、机器学习模型的不同,词性标注的准确率也随之变化。
总体而言,要提高词性标注器的准确率,无非就是标注更多语料、设计更复杂的特征模板、采用更复杂的机器学习模型。另外,为了实现自定义词性,依靠词典匹配虽然简单但是比较死板,只能用于一词一义的情况。如果涉及兼类词,标注一份领域语料才是正确做法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。