当前位置:   article > 正文

python自然语言处理工具包“spaCy”安装教程_spacy python

spacy python

spaCy简介

1、spaCy简单教程

spaCy 是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。

spaCy是隶属于NLP(自然语言处理)的python组件。

官方介绍:spaCy excels at large-scale information extraction tasks. It's written from the ground up in carefully memory-managed Cython. Independent research has confirmed that spaCy is the fastest in the world. If your application needs to process entire web dumps, spaCy is the library you want to be using.

spaCy擅长于大规模的信息提取任务。独立研究证实,spaCy是世界上最快的。如果应用程序需要处理整个web转储,则spaCy是要使用的库。)

实际应用中:Spacy支持多语言,提供相对完善的已有模型,做分词,实体识别非常好用,而且效率很高。

2、Spacy的功能

spaCy的功能很多,从最简单的词性分析,到高阶的神经网络模型,五花八门。

以下为5个常见用途

    • 词性分析
    • 命名实体识别
    • 依赖关系刻画
    • 词嵌入向量的近似度计算
    • 词语降维和可视化

3、spaCy下载与安装

      1spaCy包原镜像网站是国外服务器,由于下载速度过慢,提示错误,导致下载失败,无法成功下载。

      2、在百度查找国内镜像,然后在进行下载,下载成功,完成下载,安装spaCy

      dos命令:pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -U spacy

      3、查看spaCy是否安装成功。

      dos命令:pip show spaCy

      4、欲完成spaCy Python包的下载与安装调试需要下载自然语言处理库,出现同样的问题,寻找国内镜像,直接下载自然语言处理库的安装包,使用百度云网盘进行离线下载。

       百度网盘链接:链接:https://pan.baidu.com/s/1KitmmxL07lyrcjaErRQeRA    提取码:4aar 
 

4、安装和编译 spaCy

ubuntu环境下,直接用pip安装即可:

sudo apt-get install build-essential python-dev git

sudo pip install -U spacy

不过安装完毕之后,需要下载相关的模型数据,以英文模型数据为例,可以用"all"参数下载所有的数据:

sudo python -m spacy.en.download all

或者可以分别下载相关的模型和用glove训练好的词向量数据:

# 这个过程下载英文tokenizer,词性标注,句法分析,命名实体识别相关的模型

python -m spacy.en.download parser

# 这个过程下载glove训练好的词向量数据

python -m spacy.en.download glove

下载好的数据放在spacy安装目录下的data

可以用如下命令检查模型数据是否安装成功:

textminer@textminer:~$ python -c "import spacy; spacy.load('en'); print('OK')"

OK

也可以用pytest进行测试:

首先找到spacy的安装路径:

python -c "import os; import spacy; print(os.path.dirname(spacy.__file__))"

/usr/local/lib/python2.7/dist-packages/spacy

再安装pytest:  sudo python -m pip install -U pytest

最后进行测试

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/363659
推荐阅读
相关标签
  

闽ICP备14008679号