当前位置:   article > 正文

使用SpaCy分词

spacy分词

一、安装SpaCy

pip install spacy
  • 1

二、英文分词

1. 安装en

python -m spacy download en
  • 1

2. 分词

import spacy

spacy_en = spacy.load("en_core_web_sm")


def tokenize_en(text):
    return [tok.text for tok in spacy_en.tokenizer(text)]


print(tokenize_en("Hello, my name is tom."))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

运行结果:

['Hello', ',', 'my', 'name', 'is', 'tom', '.']
  • 1

三、中文分词

1. 安装zh_core_web_sm

python -m spacy download zh_core_web_sm
  • 1

2. 分词

import spacy

spacy_zh = spacy.load("zh_core_web_sm")


def tokenize_zh(text):
    return [tok.text for tok in spacy_zh.tokenizer(text)]


print(tokenize_zh("你好,我的名字叫汤姆"))
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

运行结果:

['你好', ',', '我', '的', '名字', '叫', '汤姆']
  • 1

官网上提供有三个中文模型:
zh_core_web_sm
zh_core_web_md
zh_core_web_lg

安装方式:

python -m spacy download zh_core_web_sm
python -m spacy download zh_core_web_md
python -m spacy download zh_core_web_lg
  • 1
  • 2
  • 3

相关文章:
spacy库中文模型的安装_Zhang_Pro的博客-程序员宅基地_spacy 中文模型

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/882059
推荐阅读
相关标签
  

闽ICP备14008679号