赞
踩
spaCy 是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。
安装和编译 spaCy 比较方便,在ubuntu环境下,直接用pip安装即可:
sudo apt-get install build-essential python-dev git
sudo pip install -U spacy
不过安装完毕之后,需要下载相关的模型数据,以英文模型数据为例,可以用"all"参数下载所有的数据:
sudo python -m spacy.en.download all
或者可以分别下载相关的模型和用glove训练好的词向量数据:
# 这个过程下载英文tokenizer,词性标注,句法分析,命名实体识别相关的模型
python -m spacy.en.download parser
# 这个过程下载glove训练好的词向量数据
python -m spacy.en.download glove
下载好的数据放在spacy安装目录下的data里,以我的ubuntu为例:
textminer@textminer:/usr/local/lib/python2.7/dist-packages/spacy/data$ du -sh *
776Men-1.1.0
774Men_glove_cc_300_1m_vectors-1.0.0
进入到英文数据模型下:
textminer@textminer:/usr/local/lib/python2.7/dist-packages/spacy/data/en-1.1.0$ du -sh *
424Mdeps
8.0Kmeta.json
35Mner
12Mpos
84Ktokenizer
300Mvocab
6.3Mwordnet
可以用如下命令检查模型数据是否安装成功:
textminer@textminer:~$ python -c "import spacy; spacy.load('en'); print('OK')"
OK
也可以用pytest进行测试:
# 首先找到spacy的安装路径:
python -c "import os; import spacy; print(os.path.dirname(spacy.__file__))"
/usr/local/lib/python2.7/dist-packages/spacy
# 再安装pytest:
sudo python -m pip install -U pytest
# 最后进行测试:
python -m pytest /usr/local/lib/python2.7/dist-packages/spacy --vectors --model --slow
============================= test session starts ==============================
platform linu
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。