当前位置:   article > 正文

NLTK中文分句 自定义词典 Mr. 不分词_nltk.tokenize.punktsentencetokenizer 中文

nltk.tokenize.punktsentencetokenizer 中文

因为我这里已经下载过NLTK了,所以就不提供安装教程了,搜一搜都能找到。

这里就直接演示对英文句子切分:

  1. from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameters
  2. def cut_sentences_en(content):
  3. punkt_param = PunktParameters()
  4. abbreviation = ['i.e.', 'dr', 'vs', 'mr', 'mrs', 'prof', 'inc'] # 自定义的词典
  5. punkt_param.abbrev_types = set(abbreviation)
  6. tokenizer = PunktSentenceTokenizer(punkt_param)
  7. sentences = tokenizer.tokenize(content)
  8. return sentences

测试: 

可以发现Mr. Smith并没有被分开。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/543024
推荐阅读
  

闽ICP备14008679号