当前位置:   article > 正文

python自然语言处理-使用NLTK做统计分析_from nltk import ngrams 波浪线

from nltk import ngrams 波浪线

  NLTK很擅长生成一些统计信息,包括对一段文字的单词数量,单词频率和单词词性的统计。如果你只需要做一些简单直接的计算(如,计算一段文字中不重复单词的数量),导入NLTK模块就太大材小用了--它是一个非常大的模块。但是,如果你还需要对文本做一些更有深度的分析,那么里面有很多函数可以帮你完成任何需要的统计指标。

  用NLTK做统计分析一般是从Text对象开始的。Text对象可以直接通过下面的方法用简单的Python字符串来创建:

  1. from nltk import word_tokenize
  2. from nltk import Text
  3. tokens=word_tokenize("Here is some not very interesting text")
  4. text=Text(tokens)
  word_tokens函数的参数可以是任何Python字符串。如果你手边没有任何长字符串,但是还想尝试一些功能,在NTLK库里已经内置了几本书,可以通过import函数导入:

from nltk.book import *
这样会加载九本书,加载结果如下图所示:
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/寸_铁/article/detail/910107
推荐阅读
相关标签
  

闽ICP备14008679号