当前位置:   article > 正文

【Pytorch神经网络理论篇】 37 常用文本处理工具:spaCy库+torchtext库

spacy库

同学你好!本文章于2021年末编写,获得广泛的好评!

故在2022年末对本系列进行填充与更新,欢迎大家订阅最新的专栏,获取基于Pytorch1.10版本的理论代码(2023版)实现,

Pytorch深度学习·理论篇(2023版)目录地址为:

CSDN独家 | 全网首发 | Pytorch深度学习·理论篇(2023版)目录本专栏将通过系统的深度学习实例,从可解释性的角度对深度学习的原理进行讲解与分析,通过将深度学习知识与Pytorch的高效结合,帮助各位新入门的读者理解深度学习各个模板之间的关系,这些均是在Pytorch上实现的,可以有效的结合当前各位研究生的研究方向,设计人工智能的各个领域,是经过一年时间打磨的精品专栏!https://v9999.blog.csdn.net/article/details/127587345欢迎大家订阅(2023版)理论篇

以下为2021版原文~~~~

 

NLP的发展过程中,人们也开发了很多非常实用的工具,这些工具可以帮助开发人员快速地实现自然语言相关的基础处理,从而可以更好地将精力用在高层次的语义分析任务中下面详细介绍该领域中比较优秀的工具。

1 spaCy库

1.1 简介

spacy是一个具有工业级强度的PythonNLP工具包,它可以用来对文本进行断词、短句、词干化、标注词性、命名实体识别、名词短语提取、基于词向量计算词间相似度等处理。

spaCy库里大量使用了Cython来提高相关模块的性能,因此在业界应用中很有实际价值。

1.2 安装

1.2.1 安装spacy本体

  1. pip install spacy
  2. # 查看安装的spacy版本
  3. python -m spacy info
  4. # 显示
  5. Location /usr/local/lib/python3.5/dist-packages/spacy
  6. Platform Linux-4.15.0-45-generic-x86_64-with-Ubuntu-16.04-xenial
  7. Installed models en_core_web_md, en
  8. Python version 3.5.2
  9. spaCy version 1.8.0

1.2.2 安装语言包(en)

注意下载与自己spacy对应版本的en_core_web_sm:

https://github.com/explosion/spacy-models/tags

https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.2.0/en_core_web_sm-3.2.0.tar.gz

1.2.3 安装 en_core_web_sm-3.2.0.tar.gz

  1. pip install en_core_web_sm-3.2.0.tar.gz
  2. # en_core_web_xx,xx代表模型大小{sm:小型,md:中型…}

1.2.4 增加软连接

python -m spacy download en

1.2.5 成功

2 与PyTorch深度结合的文本处理库torchtext

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/343500
推荐阅读
相关标签