赞
踩
1、打开Ptyhon命令行
2、下载nltk
pip install nltk
3、允许nltk下载器
import nltk
nltk.download()
4、在下载器界面里,选择“all”,下载全部文件
5、因为下载国外网站的大文件很慢,也可以设置代理服务器
>>> nltk.set_proxy('http://proxy.example.com:3128', ('USERNAME', 'PASSWORD'))
>>> nltk.download()
前面的方法,安装起来慢、又容易出现问,所以也可以手动安装。
1、创建一个文件夹nltk_data,比如C:\nltk_data,或 or /usr/local/share/nltk_data,
2、在这个文件夹下,创建子目录:chunkers, grammars, misc, sentiment, taggers, corpora, help, models, stemmers, tokenizers
3、在http://nltk.org/nltk_data/ 下分开下载包(可以参考download链接)
把这些包解压缩到对应的子目录。
比如,https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/packages/corpora/brown.zip 文件被解压到nltk_data/corpora/brown .
4、设置电脑环境变量NLTK_DATA ,指向nltk_data文件夹。
或者,通过命令 from nltk.book import *,来查nltk_data路径在哪儿。
5、也可以从网盘下载。目前网友贡献了2个网盘。要下载大的那个。
网盘是2019年5月30日最后更新,基本够了;因为这个nltk_data语料库大不符都是好几年前的,最新更改的也是一年多前的。
第一个:链接:https://pan.baidu.com/s/1iJGCrz4fW3uYpuquB5jbew 提取码:o5ea
第二个: 链接:https://pan.baidu.com/s/1ekdZl1ows34n02mMGLx9jA 密码:zn68
6、通过nltk.download()打开下载器,看看里面红色的包还多不多。
如果有,多点几次刷新;然后再单选依然红色的包,再逐个选择下载。
可以反复重启、下载。
之所以不大好安装nltk_data,主要是跨国下载,网速太慢。
1、如果遇到 [Error 11004]getaddrinfo failed,那是链接不了服务器
是“找不到 raw.githubusercontent.com 的服务器 IP 地址”的错误。
2、可以改变电脑系统的ip映射
3、在C:\Windows\System32\drivers\etc 路径下找到hosts文件,并在最后添加 199.232.68.133 raw.githubusercontent.com IP地址,并保存。这时再打开NLTK下载器,便可以正常打开。
4、如果raw.GitHub的IP地址更换得比较频繁,那么先查询该网址的IP地址后再修改hosts文件。打开查询IP地址的网址:https://www.ipaddress.com/
输入如下代码,按Enter:raw.githubusercontent.com
1、All packages页签里,点击单个包,重新下载
2、到https://github.com/nltk/nltk_data,下载
如果是全部包一起下载,就要放命名为nltk_data,放在以下任一路径:
/usr/lib
/usr/local/lib
安装完以后,测试NTLK是否下载成功
测试输出NTLK布朗文本语料库前十个单词:
>>> from nltk.corpus import brown
>>> brown.words()
['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
1、下载:python -m spacy download zh_core_web_sm
2、测试是否安装成功:
import spacy
nlp = spacy.load("zh_core_web_sm")
doc = nlp("No text available yet")
print([(w.text, w.pos_) for w in doc])
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。