当前位置:   article > 正文

Python与自然语言处理——词性标注与命名实体识别(一)_jieba命名实体识别

jieba命名实体识别

词性标注与命名实体识别(一)

词性标注

词性标注简介
  • 词性标注是在给定句子中判定每个词的语法范畴,确定其词性并标注的过程。
  • 中文特点:
    • 一个词的词性是不固定的
    • 但从整体上看,一个词常用的只有1、2种词性(特别是实词)
词性标注规范

词性标注一般需要一定的标注规范,如将词分为名词、形容词、动词等。中文领域尚无统一标准,常用的包括:

  • 北大的词性标注集
  • 宾州词性标注集

这里我们使用北大词性标注集:
北大词性标注集

Jieba的词性标注
  • 标注流程如下
    • 首先通过正则表达式判断是否为汉字,若符合表达式则判定为汉字
    re_han_internal=re.compile("[\u4E00-\u9FD5a-zA-Z0-9+#&\._]+)")
    
    • 1
    • 然后基于前缀词典构建有向无环图,进一步计算最大概率路径,同时在前缀词典中找出它所分出的词性,若未找到则设置为“未知”
    • 若是汉字则根据正则表达式继续匹配,赋予“未知”、“数字”和“英语”。
  • 代码示例
######词性标注######
import jieba.posseg as psg

sent="中文分词是文本处理不可或缺的一步!"
seg_list=psg.cut(sent)
print(' '.join(['{0}/{1}'.format(w,t) for w,t in seg_list]))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 显示结果

中文/nz 分词/n 是/v 文本处理/n 不可或缺/l 的/uj 一步/m !/x


命名实体识别(NER)

命名实体识别简介
  • 目标:识别语料中的人名、地名、组织机构名等命名实体。
  • 命名实体
    • 三大类:实体类、时间类以及数字类
    • 七小类:人名、地名、组织机构名、时间、日期、货币和百分比
  • 还存在的问题
    • 只在有限的文本类型和实体类型取得了效果
    • 实体命名评测语料较小,容易过拟合
    • 更侧重高召回率
    • 通用的识别多种类型的命名实体系统性差
  • 中文命名实体识别的主要难点
    • 各类命名实体的数量众多
    • 命名实体的构成规律复杂
    • 嵌套情况复杂
    • 长度不确定
  • 主要方法
    • 基于规则
    • 基于统计
    • 混合方法
基于随机条件场的命名实体识别
  • 随机条件场的定义
    X = ( X 1 , X 2 , ⋯   , X n ) X = \left( { {X_1},{X_2}, \cdots ,{X_n}} \right) X=(X1,X2,,Xn) Y = ( Y 1 , Y 2 , ⋯   , Y m ) Y = \left( { {Y_1},{Y_2}, \cdots ,{Y_m}} \right) Y=(Y1,Y2,,Ym)是联合随机变量,若随机变量 Y Y Y构成一个无向图 G = ( V , E ) G = \left( {V,E} \right) G=(V,E)表示的马尔可夫模型,则其条件概率分布 P ( Y ∣ X ) P\left( {Y\left| X \right.} \right) P(YX)称为条件随机场(CRF),即
    P ( Y v ∣ X , Y w , w ≠ v ) = P ( Y v ∣ X , Y w , w ∼ v ) P\left( { {Y_v}\left| {X,{Y_w},w \ne v} \right.} \right) = P\left( { {Y_v}\left| X \right.,{Y_w},w \sim v} \right) P(YvX,Yw,w̸=v)=P(YvX,Yw,wv)
    其中 w ∼ v w\sim v wv表示图 G = (
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/黑客灵魂/article/detail/835661
推荐阅读
相关标签
  

闽ICP备14008679号