赞
踩
NLTK(Natural Language Toolkit)是自然语言处理(NLP)研究领域常用的一个Python库,由宾夕法尼亚大学的Steven Bird和Edward Loper在Python的基础上开发的一个模块,至今已有超过十万行的代码,它提供了一系列工具和资源,可用于处理文本数据、实现文本分类、词性标注、分词、命名实体识别、语言模型等任务。NLTK 包含了大量语料库、词典和预训练模型,使得开发者能够轻松地构建自然语言处理应用程序。。
1.在cmd窗口或者是jupyter中输入以下代码:(jupyter中在代码前面需要加上 “!”)
pip install nltk
2.安装完后,输入以下代码,下载语料库:
import nltk
nltk.download()
弹出该页面,点击Download即可
但在这种情况下,一般会出错,可能是因为网路问题,通常我们可以开机加速器进行加速,能够提高成功率与下载速度,如steam++
这里推荐的是手动下载,第一是下载语料库速度相对较快,而且简单,同样先安装nltk库:
pip install nltk
其次去下载对应的文件,在github上下载最新的文件,链接如下:
https://github.com/nltk/nltk_data/tree/gh-pages
将文件下载后,把文件中packages文件重命名为nltk_data,并将该文件放置于下图地址(可以放在不同的地址中,如果报错(会给出多个地址提供帮助),可以根据报错信息地址放置该文件)
运行下方代码:
import nltk
nltk.download()
from nltk.book import *
如出现结果如下(出现text9),即安装配置成功:
还可以查看某文件中’whale’出现的次数
text1.count('whale') # 计算'whale'出现的次数
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。