当前位置:   article > 正文

NLP学习笔记0427_averaged_perceptron_tagger

averaged_perceptron_tagger

1.环境搭建

     import nltk

    nltk.download("averaged_perceptron_tagger")

2、下载以下几个文件

stanford-parser-full-2015-12-09  stanford-ner-2015-12-09

stanford-segmenter-2015-12-09 stanford-postagger-full-2015-12-09 

  修改过的nltk nltk-develop     stanford-chinese-corenlp-2018-02-27-models  

前四个包是斯坦福提供的分析资源包,该工具的使用依赖于JAVA环境需要装JDK 1.8 在此不赘述,nltk_develop,需要运行其中的setup.py文件,忘了说了,我的环境是python 36,运行完成后在PYTHON36安装目录下的Lib文件夹里面的site-packages里面生成和nltk相关的3个文件夹,将  修改过的nltk下载下来之后覆盖即可,最后一个chinese-corenlp则是资源文件

3、 斯坦福词性标注器安装部署

    3.2、 斯坦福分词操作

  1. # -*- coding: utf-8 -*-
  2. from nltk.tokenize.stanford_segmenter import StanfordSegmenter
  3. data_dir = "D:\\NLTK\\stanford-segmenter-2015-12-09"
  4. segmenter = StanfordSegmenter(
  5. java_class='edu.stanford.nlp.ie.crf.CRFClassifier',
  6. path_to_jar=data_dir + "\\stanford-segmenter-3.6.0.jar",
  7. path_to_slf4j=data_dir+"\\slf4j-api.jar",
  8. path_to_sihan_corpora_dict=data_dir+"\\data",
  9. path_to_model=data_dir+"\\data\\pku.gz",
  10. path_to_dict=data_dir+"\\data\\dict-chris6.ser.gz"
  11. )
  12. sentence = u"这是斯坦福中文分词器测试"
  13. result = segmenter.segment(sentence)
  14. print(result)

总结一定要注意path_to_slf4j路径,否则会出现java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory,错误

3.3 StanfordNERTagger  英文命名实体识别

  1. # -*- coding: utf-8 -*-
  2. from nltk.tag import StanfordNERTagger
  3. eng_tagger = StanfordNERTagger(
  4. model_filename=r'D:\NLTK\stanford-ner-2015-12-09\classifiers\english.all.3class.distsim.crf.ser.gz',
  5. path_to_jar=r'D:\NLTK\stanford-ner-2015-12-09\stanford-ner.jar',
  6. )
  7. print(eng_tagger.tag('Rami Eid is studying at Stony Brook University in NY'.split()))
总结:StanfordNERTagger没有参数接收path_to_slf4j参数,还是出现了java.lang.NoClassDefFoundError: org/slf4j/LoggerFactory错误
修正方式:修改文件 C:\Python36\Lib\site-packages\nltk\tag\stanford.py文件的函数tag_sents在      stanpos_output, stderr 赋值处之前添加
  1. _CLASS_PATH = "."
  2. if os.environ.get('CLASSPATH') is not None:
  3. _CLASS_PATH = os.environ.get('CLASSPATH')
  4. stanpos_output, stderr = java(cmd, classpath=(self._stanford_jar, _CLASS_PATH), stdout=PIPE, stderr=PIPE)
如果之前已经覆盖过Lib里面的site-packages即可跳过

当前,这个方式的前提是在你电脑的环境变量上CLASSPATH添加slf4j-api.jar的绝对路径即可

3.4中文命名实体

#对于chinese.misc.distsim.crf.ser.gz与chinese.misc.distsim.prop文件,将stanford-chinese-corenlp-2016-10-31-models.jar解压可以找到。

  1. # -*- coding: utf-8 -*-
  2. from nltk.tag import StanfordNERTagger
  3. result='四川省 成都 信息 工程 大学 我 在 博客 园 开 了 一个 博客 , 我 的 博客 名叫 伏 草 惟 存 , 写 了 一些 自然语言 处理 的 文章 。\r\n'
  4. chi_tagger = StanfordNERTagger(model_filename=r'D:\NLTK\stanford-chinese-corenlp-2018-02-27-models\edu\stanford\nlp\models\ner\chinese.misc.distsim.crf.ser.gz',
  5. path_to_jar=r'D:\NLTK\stanford-ner-2015-12-09\stanford-ner.jar')
  6. for word, tag in chi_tagger.tag(result.split()):
  7. print(word,tag)
3.5词性标注

StanfordPOSTagger 中文词性标注

  1. # -*- coding: utf-8 -*-
  2. from nltk.tag import StanfordPOSTagger
  3. chi_tagger = StanfordPOSTagger(model_filename=r'D:\NLTK\stanford-postagger-full-2015-12-09\models\chinese-distsim.tagger',
  4. path_to_jar=r'D:\NLTK\stanford-postagger-full-2015-12-09\stanford-postagger.jar')
  5. result= '四川省 成都 信息 工程 大学 我 在 博客 园 开 了 一个 博客 , 我 的 博客 名叫 伏 草 惟 存 , 写 了 一些 自然语言 处理 的 文章 。\r\n'
  6. print(chi_tagger.tag(result.split()))

3.6中文语法分析

  1. # -*- coding: utf-8 -*-
  2. from nltk.parse.stanford import StanfordParser
  3. chi_parser = StanfordParser(r"D:\NLTK\stanford-parser-full-2015-12-09\stanford-parser.jar",
  4. r"D:\NLTK\stanford-parser-full-2015-12-09\stanford-parser-3.6.0-models.jar",
  5. r"D:\NLTK\stanford-chinese-corenlp-2018-02-27-models\edu\stanford\nlp\models\lexparser\chinesePCFG.ser.gz")
  6. sent = u'北海 已 成为 中国 对外开放 中 升起 的 一 颗 明星'
  7. print(list(chi_parser.parse(sent.split())))

3.7 中文依存句法分析

  1. # -*- coding: utf-8 -*-
  2. from nltk.parse.stanford import StanfordDependencyParser
  3. chi_parser = StanfordDependencyParser(r"D:\NLTK\stanford-parser-full-2015-12-09\stanford-parser.jar",
  4.                                       r"D:\NLTK\stanford-parser-full-2015-12-09\stanford-parser-3.6.0-models.jar",
  5.                                       r"D:\NLTK\stanford-chinese-corenlp-2018-02-27-models\edu\stanford\nlp\models\lexparser\chinesePCFG.ser.gz")
  6. res = list(chi_parser.parse(u'四川 已 成为 中国 西部 对外开放 中 升起 的 一 颗 明星'.split()))
  7. for row in res[0].triples():
  8.     print(row)

说明所有资料整理自 

【NLP】干货!Python NLTK结合stanford NLP工具包进行文本处理

根据自己的环境进行的修改,上述代码可以正常运行
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/344360
推荐阅读
相关标签
  

闽ICP备14008679号