当前位置:   article > 正文

结巴分词基础_巴结的巴是前缀吗

巴结的巴是前缀吗
# -*- conding:utf-8 -*-
import jieba
from jieba.analyse import TFIDF,extract_tags,tfidf
jieba.initialize()
res = jieba.cut("seo是什么")  # 返回生成器
for item in res:
    print(item)
#lcut()普通模式,分出更少的词,返回列表
list_res  = jieba.lcut("我在北京大学读研究生")
print(','.join(list_res))

#lcut_for_search 搜索引擎模式,分出更多的词,返回列表
jieba.add_word('读研究生') #单独增加一个分词
more_res = jieba.lcut_for_search("我在北京大学读研究生")
print(more_res)

#自定义分词器
zdy = jieba.Tokenizer(dictionary = './keywords.txt')
ww = zdy.lcut("嫦娥五号发射成功")
print(ww)

#加载用户自定义词典,推荐使用
ww1 = jieba.load_userdict('./keywords.txt')
ww2 = jieba.lcut('嫦娥五号发射成功')
print(ww2)


# -*- conding:utf-8 -*-
import jieba
from jieba.analyse import TFIDF, extract_tags, tfidf, textrank

jieba.initialize()
text = "不管你学什么,只要你学的精通了都比较有钱途,刚学网络营销应该没有php赚钱,但是以后就很难说了" \
       "对网络营销不是很了解,但是php还是比较了解,根据你的工作经验工资一定会一年比一年高,"\
       "虽然不至于赚什么大钱,但是也饿不死,属于所谓的白领吧....其他答案:钱途当然是网络营销啊,PHP只是光做编程"
# text 文本内容,topK 默认20个关键词, withWeight 返回网站权重
cotent  = extract_tags(text,topK =5, withWeight = True)
# textrank是另外一种计算权重算法
other = textrank(text,topK =5, withWeight = True)
print(cotent)
print(other)



import jieba
import jieba.posseg as psg

jieba.initialize()
res = psg.lcut('嫦娥五号发射成功')   #词性划分
for c , x in res:
    print(c , x)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/281553
推荐阅读
相关标签
  

闽ICP备14008679号