python自然语言处理之spacy详解_python spacy

作者：小丑西瓜9 | 2024-03-31 06:45:23

踩

python spacy

spaCy简介

spaCy号称工业级Python自然语言处理（NLP）软件包，可以对自然语言文本做词性分析、命名实体识别、依赖关系刻画，以及词嵌入向量的计算和可视化等。

spaCy模块有4个非常重要的类：

Doc：Doc对象由Tokenizer构造，然后由管道的组件进行适当的修改。doc对象包含Token的序列和Token的注释（Annotation）；
Span：Span对象是Doc对象的一个切片；
Token：在自然语言处理中，把一个单词、一个标点符号、一个空格等叫做一个token；
Vocab（vocabulary）：存储词汇表和语言共享的数据。词汇表使用Lexeme对象和StringStore对象来表示。
具体参考：https://www.cnblogs.com/ljhdo/p/10777246.html

spaCy工作处理流程（spaCy的处理管道）

使用spaCy时，文本字符串的第一步是将其传递给NLP对象。这个对象本质上是由几个文本预处理操作组成的管道（什么是Pipeline），输入文本字符串必须通过这些操作。当你在一个文本上调用nlp时，spaCy首先通过Tokenizer（分词器）进行分词并生成一个doc对象，然后doc会经过几个不同的步骤进行处理。Pipeline通常包括一个标记器（tagger）、一个词法器（lemmatizer）、一个解析器（parser）和一个实体识别器（entity recognizer）。每个流水线组件都会返回经过处理的doc，然后将其传递给下一个组件，最后形成最终doc。
在这里插入图片描述
创建nlp对象：

import spacy
nlp = spacy.load('en_core_web_sm')

# 创建nlp对象
doc = nlp("he eat an apple.")
1
2
3
4
5

spaCy实践

前面说了，spaCy是Python自然语言处理（NLP）软件包，下面进行几个流行的NLP任务，包括词性标记、依存分析和命名实体识别。

其余待补充>>>

参考：
《数亦有道：python数据科学指南》
https://www.cnblogs.com/panchuangai/p/13695902.html
https://zhuanlan.zhihu.com/p/405071894
https://www.cnblogs.com/ljhdo/p/10777246.html

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】

python自然语言处理之spacy详解_python spacy

spaCy简介

spaCy模块有4个非常重要的类：

spaCy工作处理流程（spaCy的处理管道）

spaCy实践

（一）词性标记

（二）依存分析

（三）命名实体识别