当前位置:   article > 正文

手动下载并安装nltk_data_punkt.zip下载

punkt.zip下载

参考文章:手动下载并安装nltk_data_ybdesire的专栏-CSDN博客_手动安装nltk

1. 引入

使用nltk的tokenizer、模型、语料之前,都要先运行如下代码进行下载:

  1. import nltk
  2. nltk.download()

但网络原因,笔者从未成功下载过。

2. 离线安装步骤

2.1 下载nltk_data

下载链接: https://github.com/nltk/nltk_data/tree/gh-pages
注意下载branch为gh-pages,下载后得到:nltk_data-gh-pages.zip

2.2 上传到服务器/root目录

将nltk_data-gh-pages.zip上传到ubuntu的/root/目录。

2.3 解压后,copy其中package下所有文件

(1)创建/root/nltk_data/

(2)解压 nltk_data-gh-pages.zip

(3)cp -rf nltk_data-gh-pages/packages/* /root/nltk_data/

2.4 验证是否成功与报错解决方式

运行如下代码

  1. from nltk import *
  2. text = word_tokenize("They refuse to permit us to obtain the refuse permit")

报错

  1. Resource punkt not found.
  2. Please use the NLTK Downloader to obtain the resource:
  3. >>> import nltk
  4. >>> nltk.download('punkt')

报错的解决方法:

(1) 找到punkt所在目录

  1. cd /root/nltk_data/
  2. find . -name "punkt*"

(2) 切换到punkt所在目录,并解压

  1. cd /root/nltk_data/tokenizers
  2. unzip punkt.zip

再运行如上代码,不报错,则说明配置成功了

报错原因:报错说缺少punkt分词器,因为上面下载的punkt还是zip的,没有解压。必须要手动解压后才能被nltk识别使用

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/344395?site
推荐阅读
相关标签
  

闽ICP备14008679号