NLP学习路径（四）：NLP词性标注与命名实体识别_使用nltk进行词性标注和命名实体识别

作者：Guff_9hys | 2024-08-22 20:34:19

踩

使用nltk进行词性标注和命名实体识别

1、词性标注
（1）词性标注简介
词性标注是在给定句子中判定每个词的语法范畴，确定其词性并加以标注。但在中文中，一个词的词性很多时候都是不固定的。从整体上看大多数词语，尤其是实词，一般只有1-2个词性，且其中一个词性的使用频次远远大于另一个，即使每次都将高频词性作为词性选择进行标注，也能实现80%以上的准确率。
目前较为主流的方法是同分词方法一样，将句子的词性标注作为一个序列标注问题来解决，即可以用分词的方法用来进行词性标注。
（2）词性标注规范
较为主流的主要为北大的词性标注集和宾州词性标注集两大类。
（3）Jieba分词中的词性标注
结合规则和统计的方式，即词典匹配和HMM共同作用。词性标注流程如下：
1）首先基于正则表达式进行汉字判断：

re_han_internal = re.compile("([\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)")
1

2）若符合上面的表达式。则被判定为是汉字，然后基于前缀词典构建有向无环图，再基于有向无环图计算最大概率路径，同时在前缀词典中找出它所分出的词性，若在词典中未找到，则赋予词性“x”（代表未知）。若在这个过程中，设置使用HMM，且待标注词为未登录词，则会通过HMM的方式进行词性标注。
3）若不符合表达式，将继续通过正则表达式进行类型判断，分别赋予“x”,“m”(数词)和“eng”(英文)。
例子：

2、命名实体识别

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Guff_9hys/article/detail/1017883