赞
踩
NLTK很擅长生成一些统计信息,包括对一段文字的单词数量,单词频率和单词词性的统计。如果你只需要做一些简单直接的计算(如,计算一段文字中不重复单词的数量),导入NLTK模块就太大材小用了--它是一个非常大的模块。但是,如果你还需要对文本做一些更有深度的分析,那么里面有很多函数可以帮你完成任何需要的统计指标。
用NLTK做统计分析一般是从Text对象开始的。Text对象可以直接通过下面的方法用简单的Python字符串来创建:
- from nltk import word_tokenize
- from nltk import Text
- tokens=word_tokenize("Here is some not very interesting text")
- text=Text(tokens)
word_tokens函数的参数可以是任何Python字符串。如果你手边没有任何长字符串,但是还想尝试一些功能,在NTLK库里已经内置了几本书,可以通过import函数导入:
from nltk.book import *
这样会加载九本书,加载结果如下图所示:
赞
踩
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。