赞
踩
explosion网址:https://explosion.ai/
spaCy下载网址:https://explosion.ai/software
spaCy的GitHub网址:https://github.com/explosion/spaCy
spaCy的网页网址:https://spacy.io/
此存储库包含spaCy NLP库的模型发布版。有关如何下载、安装和使用模型的更多信息,请参阅模型文档。
⚠️ Important note:
由于模型可能非常大且主要由二进制数据组成,我们不能简单地将其作为文件提供在GitHub存储库中。因此,我们选择将它们添加到发布版本中,以 .whl 和 .tar.gz 文件格式提供。这样我们仍然可以保持公开发布历史。
要安装特定模型,请运行以下命令并输入模型名称(例如,英文:en_core_web_sm
,中文:zh_core_web_sm
):
python -m spacy download [model]
对于spaCy v1.x模型,请 查看此处。
总的来说,spaCy期望所有模型包遵循 [lang]_[name]
的命名规范。对于我们提供的流水线,我们将名称分为三个部分:
core: dep: ent: sent: genre:
core
: 具有标记、解析、词形还原和命名实体识别的通用模型dep
: 仅具有标记、解析和词形还原ent
: 仅具有命名实体识别sent
: 仅具有句子分割sm
: 没有单词向量md
: 减少的单词向量表,包含20,000个唯一的向量,用于约500,000个单词lg
: 大型单词向量表,包含约500,000个条目en_core_web_md
是一个中等大小的英语模型,经过书面网络文本(博客、新闻、评论)的训练,包括一个标记器、一个依赖解析器、一个词形还原器、一个命名实体识别器和一个包含20k个唯一向量的词向量表。此外,模型版本控制反映了与spaCy的兼容性以及模型版本。模型版本a.b.c
可以翻译为:
a
: spaCy主要版本 例如,2
代表spaCy v2.x。b
: spaCy小版本号 例如,对于spaCy v2.3.x,版本号为 3
。c
: 模型版本 不同的模型配置:例如在不同的数据上进行训练,使用不同的参数,训练不同的次数,使用不同的向量等。要详细了解兼容性,请查看压缩包spacy-models-master.zip
中的compatibility.json
文件。这也是spaCy执行内部兼容性检查的来源,当您运行下载
命令时会进行检查。
如果您正在使用较旧版本(v1.6.0或更低版本),您仍然可以通过spaCy使用python -m spacy.en.download all
或者 python -m spacy.de.download all
从内部下载并安装旧模型。.tar.gz
归档文件也已附加到v1.6.0版本中。
要手动下载并安装模型,请解压缩归档文件,将其中的目录放入spacy/data
中,并通过spacy.load('en')
或spacy.load('de')
加载模型。
为了提高透明度并使使用spaCy与您自己的模型更加容易,现在所有数据都可以作为直接下载,按单独的版本进行组织。spaCy 1.7还支持安装和加载模型作为Python软件包。现在,您可以选择如何以及在哪里保存数据文件,并设置“快捷链接”以从spaCy内部按名称加载模型。有关此内容的更多信息,请参阅新的模型文档。
# 下载与您的spaCy安装最匹配的特定模型版本。
python -m spacy download en_core_web_sm
# pip install .whl or .tar.gz archive from path or URL
# 处理英文
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl
# 处理中文,例如:
pip install https://github.com/explosion/spacy-models/releases/download/zh_core_web_sm-3.0.0/zh_core_web_sm-3.0.0.tar.gz
要加载模型,请使用spacy.load()
,并传入模型名称、快捷链接或模型数据目录的路径。
import spacy
nlp = spacy.load("en_core_web_sm")
doc = nlp(u"This is a sentence.")
您还可以通过其全名直接导入
模型,然后使用没有参数的 load()
方法调用它。这种方法也应该适用于旧版本 spaCy 中的较早模型。
import spacy
import en_core_web_sm
nlp = en_core_web_sm.load()
doc = nlp(u"This is a sentence.")
在某些情况下,您可能更喜欢手动下载数据,例如将其放入自定义目录中。您可以通过浏览器从最新版本中下载模型,或者使用归档文件的URL配置自己的下载脚本。归档包含一个模型目录,其中包含另一个包含模型数据的目录。
└── en_core_web_md-3.0.0.tar.gz # downloaded archive
├── setup.py # setup file for pip installation
├── meta.json # copy of pipeline meta
└── en_core_web_md # 声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/648332
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。