赞
踩
1、词性标注
(1)词性标注简介
词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注。但在中文中,一个词的词性很多时候都是不固定的。从整体上看大多数词语,尤其是实词,一般只有1-2个词性,且其中一个词性的使用频次远远大于另一个,即使每次都将高频词性作为词性选择进行标注,也能实现80%以上的准确率。
目前较为主流的方法是同分词方法一样,将句子的词性标注作为一个序列标注问题来解决,即可以用分词的方法用来进行词性标注。
(2)词性标注规范
较为主流的主要为北大的词性标注集和宾州词性标注集两大类。
(3)Jieba分词中的词性标注
结合规则和统计的方式,即词典匹配和HMM共同作用。词性标注流程如下:
1)首先基于正则表达式进行汉字判断:
re_han_internal = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)")
2)若符合上面的表达式。则被判定为是汉字,然后基于前缀词典构建有向无环图,再基于有向无环图计算最大概率路径,同时在前缀词典中找出它所分出的词性,若在词典中未找到,则赋予词性“x”(代表未知)。若在这个过程中,设置使用HMM,且待标注词为未登录词,则会通过HMM的方式进行词性标注。
3)若不符合表达式,将继续通过正则表达式进行类型判断,分别赋予“x”,“m”(数词)和“eng”(英文)。
例子:
2、命名实体识别
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。