赞
踩
pip3 install jieba
#全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print(",".join(seg_list))
#精确模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print(",".join(seg_list))
搜索引擎模式
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")
print(",".join(seg_list))
#输出:
#我,来到,北京,清华,清华大学,华大,大学
#我,来到,北京,清华大学
#小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,,,后,在,日本,京都,大学,日本京都大学,深造
jieba.load_userdict(file_name) # file_name为自定义词典的路径
云计算 5
李小福 2 nr
创新办 3 i
easy_install 3 eng
好用 300
韩玉赏鉴 3 nz
import jieba import jieba.posseg as pseg test_sent = "李小福是创新办主任也是云计算方面的专家;" test_sent +="例如我输入一个带“韩玉赏鉴”的标题,在自定义词库中也增加了此词为N类型" words = jieba.cut(test_sent) print("/".join(words)) #加载自定义字典 jieba.load_userdict("userdict") result = pseg.cut(test_sent) print("/".join([word.word for word in result])) #输出 #李小福/是/创新/办/主任/也/是/云/计算/方面/的/专家/;/例如/我/输入/一个/带/“/韩玉/赏鉴/”/的/标题/,/在/自定义词/库中/也/增加/了/此/词为/N/类型 #李小福/是/创新办/主任/也/是/云计算/方面/的/专家/;/例如/我/输入/一个/带/“/韩玉赏鉴/”/的/标题/,/在/自定义词/库中/也/增加/了/此/词/为/N/类型
jieba.analyse.extract_tags(sentence,topK) #需要先import jieba.analyse
#setence为待提取的文本,必须是一连串的字符串才可以
#topK为返回几个TF/IDF权重最大的关键词,默认值为20代码示例 (关键词提取)
import jieba.analyse
t = open("test", 'r', encoding='utf-8')
readlines = t.readlines()
for line in readlines:
print(jieba.analyse.extract_tags(line,topK=10))
import jieba.posseg as pseg
cut = pseg.cut("我爱北京天安门")
for c in cut:
print(c.word+"/"+c.flag)
#输出
我/r
爱/v
北京/ns
天安门/ns
import jieba
import sys, time
jieba.enable_parallel(4)
content = open("test", "rb").read()
t1 = time.time()
words = list(jieba.cut(content))
t2 = time.time()
print("cost:"+str(t2 - t1))
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。