赞
踩
# -*- conding:utf-8 -*- import jieba from jieba.analyse import TFIDF,extract_tags,tfidf jieba.initialize() res = jieba.cut("seo是什么") # 返回生成器 for item in res: print(item) #lcut()普通模式,分出更少的词,返回列表 list_res = jieba.lcut("我在北京大学读研究生") print(','.join(list_res)) #lcut_for_search 搜索引擎模式,分出更多的词,返回列表 jieba.add_word('读研究生') #单独增加一个分词 more_res = jieba.lcut_for_search("我在北京大学读研究生") print(more_res) #自定义分词器 zdy = jieba.Tokenizer(dictionary = './keywords.txt') ww = zdy.lcut("嫦娥五号发射成功") print(ww) #加载用户自定义词典,推荐使用 ww1 = jieba.load_userdict('./keywords.txt') ww2 = jieba.lcut('嫦娥五号发射成功') print(ww2) # -*- conding:utf-8 -*- import jieba from jieba.analyse import TFIDF, extract_tags, tfidf, textrank jieba.initialize() text = "不管你学什么,只要你学的精通了都比较有钱途,刚学网络营销应该没有php赚钱,但是以后就很难说了" \ "对网络营销不是很了解,但是php还是比较了解,根据你的工作经验工资一定会一年比一年高,"\ "虽然不至于赚什么大钱,但是也饿不死,属于所谓的白领吧....其他答案:钱途当然是网络营销啊,PHP只是光做编程" # text 文本内容,topK 默认20个关键词, withWeight 返回网站权重 cotent = extract_tags(text,topK =5, withWeight = True) # textrank是另外一种计算权重算法 other = textrank(text,topK =5, withWeight = True) print(cotent) print(other) import jieba import jieba.posseg as psg jieba.initialize() res = psg.lcut('嫦娥五号发射成功') #词性划分 for c , x in res: print(c , x)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。