spacy包使用_spacy.load()

作者：IT小白 | 2024-04-05 05:35:54

踩

spacy.load()

从52nlp官网上截取了这段话：spaCy是一个Python自然语言处理工具包，诞生于2014年年中，号称“Industrial-Strength Natural Language Processing in Python”，是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能，这个区别于学术性质更浓的Python NLTK，因此具有了业界应用的实际价值。

1.安装

pip install spacy

python -m spacy download en #下一半中途失败，参考网上教程更改DNS为8.8.8.8,成功

2.使用

spacy.load('en')

这条语句报错：IOError: [E050] Can't find model 'en'. It doesn't seem to be a shortcut link, a Python package or a valid path to a data directory.很迷

参考博客，改为spacy.load('en_core_web_sm')，解决

要注意的是输入的句子要用Unicode编码，譬如s = u"hello world"，注意加前面这个u

3.代码

应该是组合成段落后，它再进行分词已经不再是400000个词了，应该是变多了

解决办法：将每个词作为一个文档，判断每个词是否被分词，若被分了或者没分但是非想要词性，则删除。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/363664