赞
踩
使用Anaconda环境下,可以直接使用activate + 环境名
的方式切到要安装nltk的环境下,然后使用conda install nltk
进行安装,如果只是普通的python方式,则是可以使用pip install
命令。
当然,NLTK最麻烦的是它的使用需要一些较大的数据包,如果对自己的网速有信心,可以直接在切到安装环境后,使用python
命令进入到python环境中,输入:
import nltk
nltk.download()
然后在可视化界面中下载就好了。
但是,这种方式不仅仅下载慢,还容易遇到大大小小的下载问题,因此,可以直接到nltk的github上下载数据包:NLTK Data
下载之后,需要将文件放在nltk扫描的文件下,找到这个路径可以使用上面的方法(不下载),看一看下载的默认路径(Download Directory):
也可以用另一种方法,直接在Python下输入调用nltk数据的代码,这时候由于没有找到数据包,报错信息中会提示搜索的路径:
可以看到搜索路径不唯一,然后,我们将上面下载的数据压缩包解压,找到下面的package
文件夹,将这个文件夹下的内容方法上面的任意一个路径中,例如:
这样就可以使用nltk的数据了,例如,重复上面的测试代码:
import nltk
from nltk.book import *
不过,要注意一点,在Github上下载的这个压缩数据包,里面的一些子文件夹下还有压缩内容,例如,如果调用nltk进行句子分割,会用到这个函数: word_tokenize()
:
import nltk
sen = 'hello, how are you?'
res = nltk.word_tokenize(sen)
print(res)
却会报错(我这里是这样),可以在报错信息中看到是punkt
数据未找到:
Resource [93mpunkt[0m not found.
Please use the NLTK Downloader to obtain the resource:
[31m>>> import nltk
>>> nltk.download('punkt')
[0m
For more information see: https://www.nltk.org/data.html
类似这样的错误,其实如果找到查找的路径,也就是上面我们放数据包的地方,是可以在tokenizers
文件夹下找到这个punkt
的,原因就在于没有解压,那么,把punkt.zip
解压到文件夹中,再运行分割句子的代码就没问题了。话有其他的一些数据也是这样的,如果遇到显示没有找到某个数据包,不妨试一试。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。