赞
踩
@(学习笔记)
spaCy is a free, open-source library for advanced Natural Language Processing (NLP) in Python.
spaCy是一个免费的开源库,用于Python中的高级自然语言处理(NLP)。
它建立在最新研究的基础上,但它的设计是为了完成任务。这导致了与作为教学和研究平台而创建的NLTK或CORENLP相比,设计决策有很大的不同。主要的区别在于spaCy是完整的和固定的。Spacy试图避免要求用户在提供等效功能的多个算法之间进行选择。保持菜单小,让Spacy提供更好的性能和开发人员体验。
NAME | DESCRIPTION |
---|---|
Tokenization | Segmenting text into words, punctuations marks etc. |
Part-of-speech (POS) Tagging | Assigning word types to tokens, like verb or noun. |
Dependency Parsing | Assigning syntactic dependency labels, describing the relations between individual tokens, like subject or object.(分配语法依赖标签,描述各个标记之间的关系,如主题或对象) |
Lemmatization(词形还原) | Assigning the base forms of words. For example, the lemma of “was” is “be”, and the lemma of “rats” is “rat”. |
Sentence Boundary Detection (SBD) (句子边界检测) | Finding and segmenting individual sentences.(查找和分割单个句子,实际上就是分句) |
Named Entity Recognition (NER) | Labelling named “real-world” objects, like persons, companies or locations. |
Similarity | Comparing words, text spans and documents and how similar they are to each other.(比较单词,文本跨度和文档以及它们彼此之间的相似程度。) |
Text Classification | Assigning categories or labels to a whole document, or parts of a document.(为整个文档或文档的某些部分分配类别或标签。) |
Rule-based Matching | Finding sequences of tokens based on their texts and linguistic annotations, similar to regular expressions. |
Training Updating and improving a statistical model’s predictions. | |
Serialization | Saving objects to files or byte strings. |
spaCy中的中心数据结构是Doc和Vocab。 Doc对象拥有标记序列及其所有注释。 Vocab对象拥有一组查找表,这些查找表可以跨文档提供公共信息。通过集中字符串,单词向量和词汇属性,我们避免存储此数据的多个副本。这样可以节省内存,并确保只有一个事实来源。
中文vocab使用的是80余万条新浪新闻(news.vec),通过fasttext生成的300dim的vector。
所有内容均为配合 https://www.jianshu.com/p/9bfbdb5dc487 系列文章。
方式一:训练自己的模型
方式二:使用他人的模型
下载模型
从 releases 页面下载模型 (New! 为中国地区的用户提供了加速下载的链接)。假设所下载的模型名为 zh_core_web_sm-2.x.x.tar.gz。
安装模型
pip install zh_core_web_sm-2.x.x.tar.gz
为了方便后续在 Rasa NLU 等框架中使用,需要再为这个模型建立一个链接,执行以下命令:
spacy link zh_core_web_sm zh
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。