赞
踩
SpaCy 是一个开源的自然语言处理库,它支持多种语言的文本处理,包括中文。SpaCy 对中文文本的处理主要依赖于其内置的中文分词器(tokenizer)。以下是使用 SpaCy 切分中文句子的基本步骤:
首先,确保你已经安装了 SpaCy。如果尚未安装,可以通过 pip 安装。
pip install spacy
SpaCy 需要下载特定的语言模型来处理中文文本。可以通过以下命令下载中文/英文模型。
python -m spacy download zh_core_web_sm
python -m spacy download en_core_web_sm
这里 zh_core_web_sm
是 SpaCy 提供的中文小模型,en_core_web_sm
是 SpaCy 提供的英文小模型。
加载下载好的模型,并使用它来处理文本。SpaCy 的分词器会自动将文本切分成句子和单词。
import spacy # 加载中文模型 zh_nlp = spacy.load('zh_core_web_sm') en_nlp = spacy.load('en_core_web_sm') def split_zh(text): # 处理文本 doc = zh_nlp(text) # 遍历文档中的句子 for sent in doc.sents: print(sent.text) def split_en(text): # 处理文本 doc = en_nlp(text) # 遍历文档中的句子 for sent in doc.sents: print(sent.text)
在上面的代码中,zh_nlp
是 SpaCy 的中文模型实例,en_nlp
是 SpaCy 的英文模型实例。text
是你想要处理的中文文本。zh_nlp(text)
会返回一个 Doc
对象,该对象包含了文本的分词、词性标注、依存关系等信息。doc.sents
是一个生成器,它会遍历文档中的所有句子。
欢迎关注本人,我是喜欢搞事的程序猿; 一起进步,一起学习;
欢迎关注知乎/CSDN:SmallerFL;
也欢迎关注我的wx公众号(精选高质量文章):一个比特定乾坤
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。