赞
踩
英文分词可以使用空格,中文就不同了,一些分词的原理后面再来说,先说下python中常用的jieba这个工具。
首先要注意自己在做练习时不要使用jieba.Py命名文件,否则会出现
jieba has no attribute named cut …等这些,如果删除了自己创建的jieba.py还有错误是因为没有删除jieba.pyc文件。
(1)基本分词函数和用法
首先介绍下分词的三种模式:
精确模式:适合将句子最精确的分开,适合文本分析;
全模式:把句子中所有可以成词的词语都扫描出来,速度快,但是不能解决歧义;
搜索引擎模式:在精确模式的基础上,对长词再次进行切分,提高召回率,适用于搜索引擎分词;
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语
jieba.cut 方法接受三个输入参数:
需要分词的字符串
cut_all 参数用来控制是否采用全模式
HMM 参数用来控制是否使用 HMM 模型
jieba.cut_for_search 方法接受两个参数
需要分词的字符串
是否使用 HMM 模型。
1 importjieba2 seg_list = jieba.cut("我爱学习自然语言处理", cut_all=True)3 print("Full Mode:" + "/".join(seg_list)) #全模式
4
5 seg_list = jieba.cut("我爱自然语言处理", cut_all=False)6 print("Default Mode:" + "/".join(seg_list)) #精
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。