NLTK数据包快速安装_nltk安装

作者：Monodyee | 2024-04-20 05:13:36

踩

nltk安装

使用Anaconda环境下，可以直接使用activate + 环境名的方式切到要安装nltk的环境下，然后使用conda install nltk进行安装，如果只是普通的python方式，则是可以使用pip install命令。
当然，NLTK最麻烦的是它的使用需要一些较大的数据包，如果对自己的网速有信心，可以直接在切到安装环境后，使用python命令进入到python环境中，输入:

import nltk
nltk.download()
1
2

然后在可视化界面中下载就好了。
但是，这种方式不仅仅下载慢，还容易遇到大大小小的下载问题，因此，可以直接到nltk的github上下载数据包：NLTK Data
下载之后，需要将文件放在nltk扫描的文件下，找到这个路径可以使用上面的方法（不下载），看一看下载的默认路径（Download Directory）：

也可以用另一种方法，直接在Python下输入调用nltk数据的代码，这时候由于没有找到数据包，报错信息中会提示搜索的路径：

可以看到搜索路径不唯一，然后，我们将上面下载的数据压缩包解压，找到下面的package文件夹，将这个文件夹下的内容方法上面的任意一个路径中，例如：
在这里插入图片描述
这样就可以使用nltk的数据了，例如，重复上面的测试代码：

import nltk
from nltk.book import *
1
2

可以看到已经成功了。

不过，要注意一点，在Github上下载的这个压缩数据包，里面的一些子文件夹下还有压缩内容，例如，如果调用nltk进行句子分割，会用到这个函数: word_tokenize()：

import nltk

sen = 'hello, how are you?'
res = nltk.word_tokenize(sen)
print(res)
1
2
3
4
5

却会报错（我这里是这样），可以在报错信息中看到是punkt数据未找到：

  Resource [93mpunkt[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt')
  [0m
  For more information see: https://www.nltk.org/data.html
1
2
3
4
5
6
7

类似这样的错误，其实如果找到查找的路径，也就是上面我们放数据包的地方，是可以在tokenizers文件夹下找到这个punkt的，原因就在于没有解压，那么，把punkt.zip解压到文件夹中，再运行分割句子的代码就没问题了。话有其他的一些数据也是这样的，如果遇到显示没有找到某个数据包，不妨试一试。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/455528