赞
踩
“Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库。NLTK是一个开源的项目,包含:Python模块,数据集和教程,用于NLP的研究和开发。NLTK由Steven Bird和Edward Loper在宾夕法尼亚大学计算机和信息科学系开发。NLTK包括图形演示和示例数据。其提供的教程解释了工具包支持的语言处理任务背后的基本概念。
pip install nltk
直接pip即可,但是现在安装的只是nltk的框架,并不是全部的工具包,每当我们使用某个工具包时,都需要去单独的下载:https://github.com/nltk/nltk_data
注:punkt插件
NOTICE: 下载后塞到:C:\Users\XXXX\AppData\Roaming\nltk_data路径下,没有nltk_data就创建一个,然后将压缩包解压后塞进去就好。
注意:
最后的路径要和官网上的路径一致,不是全都塞入nltk_data路径下,例如:stopwords,先先建立corpora文件夹,再将stopwords解压后放到corpora路径下
,即:C:\Users\XXXX\AppData\Roaming\nltk_data\corpora\stopwords
nltk.download()
在下图所示的弹窗中,在All Packages中选择需要的工具包,点击左下角的download,等待右下角的红色进度条结束后则安装完成。
import nltk
from nltk.tokenize import word_tokenize
from nltk.text import Text
str1 = "Today's weather is good, very windy and sunny, we have no classes in the afternoon, we have to play basketball tomorrow."
tokens = word_tokenize(str1)
tokens
将原文转换为小写:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。