赞
踩
- import jieba
- content='番薯,是旋花科虎掌藤属多年生草质藤本植物,具有乳汁。块根为白、红或黄色;茎生不定根'
- # jieba.cut返回的是一个生成器对象,需要用list方法转换
- # cut_all默认为False,如果为True,则是全模式分词
- list(jieba.cut(content, cut_all=False))
- # 使用lcut会直接返回列表而不是生成器对象
- jieba.lcut(content, cut_all=True)
- # 搜索引擎模式分词
- # 在精确模式的基础上。对长词再次切分,提高召回率,适合用于搜索引擎分词
- jieba.lcut_for_search(content)
'''txt:userdict.txt
八一双鹿
'''
- # 使用用户自定义词典
- # 添加自定义词典之后,jieba能准确识别词典中出现的词汇,提升整体的识别准确率
- # 词典格式:每一行分三部分:词语 词频 词性,用空格隔开,顺序不可以颠倒
- # 例如:云计算 5 n
- jieba.lcut('八一双鹿更名为八一南昌篮球队!')
- jieba.load_userdict('./userdict.txt')
- jieba.lcut('八一双鹿更名为八一南昌篮球队!')
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。