赞
踩
参考文章:手动下载并安装nltk_data_ybdesire的专栏-CSDN博客_手动安装nltk
使用nltk的tokenizer、模型、语料之前,都要先运行如下代码进行下载:
- import nltk
- nltk.download()
但网络原因,笔者从未成功下载过。
下载链接: https://github.com/nltk/nltk_data/tree/gh-pages
注意下载branch为gh-pages,下载后得到:nltk_data-gh-pages.zip
将nltk_data-gh-pages.zip上传到ubuntu的/root/目录。
(1)创建/root/nltk_data/
(2)解压 nltk_data-gh-pages.zip
(3)cp -rf nltk_data-gh-pages/packages/* /root/nltk_data/
运行如下代码
- from nltk import *
- text = word_tokenize("They refuse to permit us to obtain the refuse permit")
报错
- Resource punkt not found.
- Please use the NLTK Downloader to obtain the resource:
-
- >>> import nltk
- >>> nltk.download('punkt')
报错的解决方法:
(1) 找到punkt所在目录
- cd /root/nltk_data/
- find . -name "punkt*"
(2) 切换到punkt所在目录,并解压
- cd /root/nltk_data/tokenizers
- unzip punkt.zip
再运行如上代码,不报错,则说明配置成功了
报错原因:报错说缺少punkt分词器,因为上面下载的punkt还是zip的,没有解压。必须要手动解压后才能被nltk识别使用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。