赞
踩
spaCy号称工业级Python自然语言处理(NLP)软件包,可以对自然语言文本做词性分析、命名实体识别、依赖关系刻画,以及词嵌入向量的计算和可视化等。
Doc:Doc对象由Tokenizer构造,然后由管道的组件进行适当的修改。doc对象包含Token的序列和Token的注释(Annotation);
Span:Span对象是Doc对象的一个切片;
Token:在自然语言处理中,把一个单词、一个标点符号、一个空格等叫做一个token;
Vocab(vocabulary):存储词汇表和语言共享的数据。词汇表使用Lexeme对象和StringStore对象来表示。
具体参考:https://www.cnblogs.com/ljhdo/p/10777246.html
使用spaCy时,文本字符串的第一步是将其传递给NLP对象。这个对象本质上是由几个文本预处理操作组成的管道(什么是Pipeline),输入文本字符串必须通过这些操作。当你在一个文本上调用nlp时,spaCy首先通过Tokenizer(分词器)进行分词并生成一个doc对象,然后doc会经过几个不同的步骤进行处理。Pipeline通常包括一个标记器(tagger)、一个词法器(lemmatizer)、一个解析器(parser)和一个实体识别器(entity recognizer)。每个流水线组件都会返回经过处理的doc,然后将其传递给下一个组件,最后形成最终doc。
创建nlp对象:
import spacy
nlp = spacy.load('en_core_web_sm')
# 创建nlp对象
doc = nlp("he eat an apple.")
前面说了,spaCy是Python自然语言处理(NLP)软件包,下面进行几个流行的NLP任务,包括词性标记、依存分析和命名实体识别。
详情见:什么是依存句法分析?
其余待补充>>>
参考:
《数亦有道:python数据科学指南》
https://www.cnblogs.com/panchuangai/p/13695902.html
https://zhuanlan.zhihu.com/p/405071894
https://www.cnblogs.com/ljhdo/p/10777246.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。