当前位置:   article > 正文

NLP学习路径(四):NLP词性标注与命名实体识别_使用nltk进行词性标注和命名实体识别

使用nltk进行词性标注和命名实体识别

1、词性标注
(1)词性标注简介
词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注。但在中文中,一个词的词性很多时候都是不固定的。从整体上看大多数词语,尤其是实词,一般只有1-2个词性,且其中一个词性的使用频次远远大于另一个,即使每次都将高频词性作为词性选择进行标注,也能实现80%以上的准确率。
目前较为主流的方法是同分词方法一样,将句子的词性标注作为一个序列标注问题来解决,即可以用分词的方法用来进行词性标注。
(2)词性标注规范
较为主流的主要为北大的词性标注集和宾州词性标注集两大类。
(3)Jieba分词中的词性标注
结合规则和统计的方式,即词典匹配和HMM共同作用。词性标注流程如下:
1)首先基于正则表达式进行汉字判断:

re_han_internal = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)")
  • 1

2)若符合上面的表达式。则被判定为是汉字,然后基于前缀词典构建有向无环图,再基于有向无环图计算最大概率路径,同时在前缀词典中找出它所分出的词性,若在词典中未找到,则赋予词性“x”(代表未知)。若在这个过程中,设置使用HMM,且待标注词为未登录词,则会通过HMM的方式进行词性标注。
3)若不符合表达式,将继续通过正则表达式进行类型判断,分别赋予“x”,“m”(数词)和“eng”(英文)。
例子:

2、命名实体识别

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Guff_9hys/article/detail/1017883
推荐阅读
  

闽ICP备14008679号