python自然语言处理-使用NLTK做统计分析_from nltk import ngrams 波浪线

作者：寸_铁 | 2024-07-31 18:07:59

踩

from nltk import ngrams 波浪线

NLTK很擅长生成一些统计信息，包括对一段文字的单词数量，单词频率和单词词性的统计。如果你只需要做一些简单直接的计算（如，计算一段文字中不重复单词的数量），导入NLTK模块就太大材小用了--它是一个非常大的模块。但是，如果你还需要对文本做一些更有深度的分析，那么里面有很多函数可以帮你完成任何需要的统计指标。

用NLTK做统计分析一般是从Text对象开始的。Text对象可以直接通过下面的方法用简单的Python字符串来创建：


from nltk import word_tokenize
from nltk import Text
tokens=word_tokenize("Here is some not very interesting text")
text=Text(tokens)

word_tokens函数的参数可以是任何Python字符串。如果你手边没有任何长字符串，但是还想尝试一些功能，在NTLK库里已经内置了几本书，可以通过import函数导入：

from nltk.book import *

这样会加载九本书，加载结果如下图所示：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/寸_铁/article/detail/910107