当前位置:   article > 正文

NLP之文本处理的基本方法_文本处理-lrb-

文本处理-lrb-

针对pip下载速度慢大家可以参考,【我的pip终于神速了】解决pip安装速度慢的问题

一:jieba的使用

  • 精确模式的分词        
    • 试图将句子最精确的分开,适合文本分析
  1. import jieba
  2. content="我不可能学会NLP"
  3. print(jieba.lcut(content,cut_all=False))#精确模式
  4. print(jieba.lcut(content,cut_all=True))#全模式
  5. print(jieba.lcut_for_search(content))#搜索引擎模式
  • 全模式分词
    • 把句子中的所有可以成词的词语都扫描出来,速度快但不能消除歧义

  • 搜索引擎模式分词
    • 在精确模式的基础上,对长词在进行切分提高召回率,适合用于搜索引擎分词
  • 使用用户自定义词典
      1. import jieba
      2. content="八一双鹿更名为八一南昌篮球队"
      3. print(jieba.lcut(content,cut_all=False))
      4. jieba.load_userdict("./userdict.txt")
      5. print(jieba.lcut(content,cut_all=False))

二:命名实体识别

命名实体:通常将人名、地名、机构名等专有名词统称命名实体

识别出一段文本中可能存在的命名实体,并给出其在列表中的位置

  1. import hanlp
  2. #识别器
  3. recognizer=hanlp.load(hanlp.pretrained.ner.MSRA_NER_BERT_BASE_ZH)
  4. list1=list('鲁迅是中国作家.')
  5. list2=list('上海华安工业集团公司董事长谭旭光和秘书张婉霞来到美国纽约现代艺术博物馆参观')
  6. print(recognizer(list2))

三:词性标注 

词性标注以分词为基础,是对文本语言的另一个角度的理解

  1. import jieba.posseg as pseg
  2. content="我爱自然语言处理"
  3. print(pseg.lcut(content))

当用hanlp进行处理的时候报错了

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/882143
推荐阅读
相关标签
  

闽ICP备14008679号