当前位置:   article > 正文

NLTK数据包快速安装_nltk安装

nltk安装

使用Anaconda环境下,可以直接使用activate + 环境名的方式切到要安装nltk的环境下,然后使用conda install nltk进行安装,如果只是普通的python方式,则是可以使用pip install命令。
当然,NLTK最麻烦的是它的使用需要一些较大的数据包,如果对自己的网速有信心,可以直接在切到安装环境后,使用python命令进入到python环境中,输入:

import nltk
nltk.download()
  • 1
  • 2

然后在可视化界面中下载就好了。
但是,这种方式不仅仅下载慢,还容易遇到大大小小的下载问题,因此,可以直接到nltk的github上下载数据包:NLTK Data
下载之后,需要将文件放在nltk扫描的文件下,找到这个路径可以使用上面的方法(不下载),看一看下载的默认路径(Download Directory):

也可以用另一种方法,直接在Python下输入调用nltk数据的代码,这时候由于没有找到数据包,报错信息中会提示搜索的路径:

可以看到搜索路径不唯一,然后,我们将上面下载的数据压缩包解压,找到下面的package文件夹,将这个文件夹下的内容方法上面的任意一个路径中,例如:
在这里插入图片描述
这样就可以使用nltk的数据了,例如,重复上面的测试代码:

import nltk
from nltk.book import *
  • 1
  • 2
可以看到已经成功了。

不过,要注意一点,在Github上下载的这个压缩数据包,里面的一些子文件夹下还有压缩内容,例如,如果调用nltk进行句子分割,会用到这个函数: word_tokenize()

import nltk

sen = 'hello, how are you?'
res = nltk.word_tokenize(sen)
print(res)
  • 1
  • 2
  • 3
  • 4
  • 5

却会报错(我这里是这样),可以在报错信息中看到是punkt数据未找到:

  Resource [93mpunkt[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt')
  [0m
  For more information see: https://www.nltk.org/data.html
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

类似这样的错误,其实如果找到查找的路径,也就是上面我们放数据包的地方,是可以在tokenizers文件夹下找到这个punkt的,原因就在于没有解压,那么,把punkt.zip解压到文件夹中,再运行分割句子的代码就没问题了。话有其他的一些数据也是这样的,如果遇到显示没有找到某个数据包,不妨试一试。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/455528
推荐阅读
相关标签
  

闽ICP备14008679号