赞
踩
jieba分词可以参考官方提供的github地址:https://github.com/fxsjy/jieba
结巴分词0.4版本以上支持四种分词模式:
结巴的安装
pip install jieba
# 旧版本升级
pip install jieba --upgrade
# 使用paddle模式:结巴版本大于0.4且安装paddlepaddle-tiny模块
pip install paddlepaddle-tiny==1.6.1
结巴的参数设置:
jieba.cut 方法接受四个输入参数: 需要分词的字符串;
jieba.cut_for_search 方法接受两个参数:
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器,可用于同时使用不同词典。jieba.dt 为默认分词器,所有全局分词相关函数都是该分词器的映射。
结巴的测试示例:
# -*- coding:utf-8 -*- import jieba jieba.enable_paddle() # 开启paddle模式 sentences = ["2015年我毕业于西安建筑科技大学", "2015年我毕业于西安科技大学", "2015年我毕业于西安电子科技大学", "2015年我毕业于西安建筑科技大学", "2015年我毕业于西安交通大学", "2015年我毕业于北京大学"] for sentence in sentences: # 全模式 words = jieba.cut(sentence, cut_all=True) print("全模式: %s" % " ".join(words)) words = jieba.cut(sentence, use_paddle=True) print("新词模式: %s" % " ".join(words)) # 默认精确模式 words = jieba.cut(sentence) print("精确模式: %s" % " ".join(words)) # 搜索模式 words = jieba.cut_for_search(sentence) print("搜索模式: %s" % " ".join(words))
不同模式下的分词结果:
全模式: 2015 年 我 毕业 于 西安 建筑 科技 大学 新词模式: 2015年 我 毕业 于 西安建筑科技大学 精确模式: 2015 年 我 毕业 于 西安 建筑 科技 大学 搜索模式: 2015 年 我 毕业 于 西安 建筑 科技 大学 全模式: 2015 年 我 毕业 于 西安 科技 大学 新词模式: 2015年 我 毕业 于 西安科技大学 精确模式: 2015 年 我 毕业 于 西安 科技 大学 搜索模式: 2015 年 我 毕业 于 西安 科技 大学 全模式: 2015 年 我 毕业 于 西安 西安电子科技大学 电子 电子科 电子科技 科技 大学 新词模式: 2015年 我 毕业 于 西安电子科技大学 精确模式: 2015 年 我 毕业 于 西安电子科技大学 搜索模式: 2015 年 我 毕业 于 西安 电子 科技 大学 电子科 西安电子科技大学 全模式: 2015 年 我 毕业 于 西安 建筑 科技 大学 新词模式: 2015年 我 毕业 于 西安建筑科技大学 精确模式: 2015 年 我 毕业 于 西安 建筑 科技 大学 搜索模式: 2015 年 我 毕业 于 西安 建筑 科技 大学 全模式: 2015 年 我 毕业 于 西安 西安交通 西安交通大学 交通 大学 新词模式: 2015年 我 毕业 于 西安交通大学 精确模式: 2015 年 我 毕业 于 西安交通大学 搜索模式: 2015 年 我 毕业 于 西安 交通 大学 西安交通大学 全模式: 2015 年 我 毕业 于 北京 北京大学 大学 新词模式: 2015年 我 毕业 于 北京大学 精确模式: 2015 年 我 毕业 于 北京大学 搜索模式: 2015 年 我 毕业 于 北京 大学 北京大学
从测试的情况中可以简单的推测:paddle模式对于机构团体名的解析比较准确,而精确模式对部分词语的解析不太正确,搜索和全模式也是一样,主要是jieba默认的词典dict.txt中包含了北京大学和西安交通大学,不包含其他学校的名称,所以精确模式没有正确的分词,需要自定义词典添加这些词汇应该就可以正确的切分。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。