赞
踩
1.首先对文本进行n_gram分词
2.根据上一步的结果 对词典的的词语进行对比
3.获取对比后的结果 就是分词结果
中文简体分词
也可以进行中文繁体分词
import jieba
content = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
# 根据是否能组成词语进行分词,并且不存在重复
x = jieba.lcut(content, cut_all=False)
print(x)
# 根据是否能组成词语进行分词,存在重复
x = jieba.lcut(content, cut_all=True)
print(x)
# 返回的是一个迭代器
x = jieba.cut(content, cut_all=True)
print(next(x))
# 搜索引擎模式 对比较长的词 再次进行划分 适用于搜索引擎分词
x = jieba.lcut_for_search(content)
print(x)
用户也可以进行自定义一个词典
import hanlp
# 中文分词
content = "工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作"
tokenizer = hanlp.load('CTB6_CONVSEG') # 加载预训练模型
a = tokenizer(content)
print(a)
# 英文分词
# tokenizer = hanlp.utils.rules.tokenize_english
from hanlp.utils.lang.en.english_tokenizer import tokenize_english
tokenizer = tokenize_english
b = tokenizer('Mr. Hankcs bought hankcs.com for 1.5 thousand dollars.')
print(b)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。