当前位置:   article > 正文

spaCy NLP库的模型的下载、安装和使用说明书_spacy模型的github仓库

spacy模型的github仓库


1 前言

explosion网址https://explosion.ai/
spaCy下载网址https://explosion.ai/software
spaCy的GitHub网址https://github.com/explosion/spaCy
spaCy的网页网址https://spacy.io/

此存储库包含spaCy NLP库的模型发布版。有关如何下载、安装和使用模型的更多信息,请参阅模型文档

⚠️ Important note:
由于模型可能非常大且主要由二进制数据组成,我们不能简单地将其作为文件提供在GitHub存储库中。因此,我们选择将它们添加到发布版本中,以 .whl 和 .tar.gz 文件格式提供。这样我们仍然可以保持公开发布历史。

2 安装

快速入门

要安装特定模型,请运行以下命令并输入模型名称(例如,英文:en_core_web_sm ,中文:zh_core_web_sm):

python -m spacy download [model]
  • 1

对于spaCy v1.x模型,请 查看此处

3 模型命名规范

总的来说,spaCy期望所有模型包遵循 [lang]_[name]的命名规范。对于我们提供的流水线,我们将名称分为三个部分:
core: dep: ent: sent: genre:

  • 类型: 模型功能:
    • core: 具有标记、解析、词形还原和命名实体识别的通用模型
    • dep: 仅具有标记、解析和词形还原
    • ent: 仅具有命名实体识别
    • sent: 仅具有句子分割
  • 体裁: 模型训练的文本类型(例如,web 表示网络文本,news 表示新闻文本)
  • 大小: 模型大小指示器:
    • sm: 没有单词向量
    • md: 减少的单词向量表,包含20,000个唯一的向量,用于约500,000个单词
    • lg: 大型单词向量表,包含约500,000个条目
      例如,en_core_web_md是一个中等大小的英语模型,经过书面网络文本(博客、新闻、评论)的训练,包括一个标记器、一个依赖解析器、一个词形还原器、一个命名实体识别器和一个包含20k个唯一向量的词向量表。

3.1 模型版本控制

此外,模型版本控制反映了与spaCy的兼容性以及模型版本。模型版本a.b.c可以翻译为:

  • a: spaCy主要版本 例如,2 代表spaCy v2.x。
  • b: spaCy小版本号 例如,对于spaCy v2.3.x,版本号为 3
  • c: 模型版本 不同的模型配置:例如在不同的数据上进行训练,使用不同的参数,训练不同的次数,使用不同的向量等。

要详细了解兼容性,请查看压缩包spacy-models-master.zip中的compatibility.json文件。这也是spaCy执行内部兼容性检查的来源,当您运行下载命令时会进行检查。

3.2 支持对旧版本的兼容

如果您正在使用较旧版本(v1.6.0或更低版本),您仍然可以通过spaCy使用python -m spacy.en.download all或者 python -m spacy.de.download all从内部下载并安装旧模型。.tar.gz归档文件也已附加到v1.6.0版本中。

要手动下载并安装模型,请解压缩归档文件,将其中的目录放入spacy/data中,并通过spacy.load('en')spacy.load('de')加载模型。

4 下载模型

为了提高透明度并使使用spaCy与您自己的模型更加容易,现在所有数据都可以作为直接下载,按单独的版本进行组织。spaCy 1.7还支持安装和加载模型作为Python软件包。现在,您可以选择如何以及在哪里保存数据文件,并设置“快捷链接”以从spaCy内部按名称加载模型。有关此内容的更多信息,请参阅新的模型文档

# 下载与您的spaCy安装最匹配的特定模型版本。
python -m spacy download en_core_web_sm

# pip install .whl or .tar.gz archive from path or URL
# 处理英文
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl
# 处理中文,例如:
pip install https://github.com/explosion/spacy-models/releases/download/zh_core_web_sm-3.0.0/zh_core_web_sm-3.0.0.tar.gz
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

5 加载和使用模型

要加载模型,请使用spacy.load(),并传入模型名称、快捷链接或模型数据目录的路径。

import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp(u"This is a sentence.")
  • 1
  • 2
  • 3

您还可以通过其全名直接导入模型,然后使用没有参数的 load()方法调用它。这种方法也应该适用于旧版本 spaCy 中的较早模型。

import spacy
import en_core_web_sm

nlp = en_core_web_sm.load()
doc = nlp(u"This is a sentence.")
  • 1
  • 2
  • 3
  • 4
  • 5

6 手动下载和安装

在某些情况下,您可能更喜欢手动下载数据,例如将其放入自定义目录中。您可以通过浏览器从最新版本中下载模型,或者使用归档文件的URL配置自己的下载脚本。归档包含一个模型目录,其中包含另一个包含模型数据的目录。

└── en_core_web_md-3.0.0.tar.gz       # downloaded archive
    ├── setup.py                      # setup file for pip installation
    ├── meta.json                     # copy of pipeline meta
    └── en_core_web_md                # 
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/648332
推荐阅读
相关标签