当前位置:   article > 正文

jieba分词错误_自然语言处理之jieba分词

python3 jieba分词不准确

英文分词可以使用空格,中文就不同了,一些分词的原理后面再来说,先说下python中常用的jieba这个工具。

首先要注意自己在做练习时不要使用jieba.Py命名文件,否则会出现

jieba has no attribute named cut …等这些,如果删除了自己创建的jieba.py还有错误是因为没有删除jieba.pyc文件。

(1)基本分词函数和用法

首先介绍下分词的三种模式:

精确模式:适合将句子最精确的分开,适合文本分析;

全模式:把句子中所有可以成词的词语都扫描出来,速度快,但是不能解决歧义;

搜索引擎模式:在精确模式的基础上,对长词再次进行切分,提高召回率,适用于搜索引擎分词;

jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语

jieba.cut 方法接受三个输入参数:

需要分词的字符串

cut_all 参数用来控制是否采用全模式

HMM 参数用来控制是否使用 HMM 模型

jieba.cut_for_search 方法接受两个参数

需要分词的字符串

是否使用 HMM 模型。

8f900a89c6347c561fdf2122f13be562.png

961ddebeb323a10fe0623af514929fc1.png

1 importjieba2 seg_list = jieba.cut("我爱学习自然语言处理", cut_all=True)3 print("Full Mode:" + "/".join(seg_list)) #全模式

4

5 seg_list = jieba.cut("我爱自然语言处理", cut_all=False)6 print("Default Mode:" + "/".join(seg_list)) #精

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/460638
推荐阅读
相关标签
  

闽ICP备14008679号