当前位置:   article > 正文

python笔记——jieba库_jieba.cut

jieba.cut

一.概述

1.jieba库概述
jieba库是一个重要的第三方中文分词函数库,不是安装包自带的,需要通过pip指令安装

pip3 install jieba
  • 1

二.jieba库使用

1.库函数
jieba.cut(s)——精确模式,返回一个可迭代数据类型
jieba.cut(s,cut_all=True)——全模式,输出文本s中可能的单词
jieba.cut_for_search(s)——搜索引擎模式,适合搜索引擎建立索引的分词结果
jieba.lcut(s,cut_all=True)——全模式,返回列表类型
jieba.lcut_for_search(s)——搜索引擎模式,返回列表类型
jieba.add_word(w)——向分词词典中增加新词w

2.使用

import jieba
list(jieba.cut("中华人民共和国是一个伟大的国家"))转化为列表类型
#结果为['中华人民共和国','是','一个','伟大','的','国家']
  • 1
  • 2
  • 3
import jieba
list(jieba.cut("中华人民共和国是一个伟大的国家"),True)
#结果为['中华','人民','共和','中华人民'........]找出所有可能的单词
  • 1
  • 2
  • 3

使用jieba.lcut直接返回列表类型

三.实例

import jieba
txt=open("E:\\从百草园到三味书屋.txt","r",encoding='utf-8').read()
words=jieba.lcut(txt)
counts={}
for word in words:
    counts[word]=counts.get(word,0)+1
items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(20):
    word,count=items[i]
    print("{0:<10}{1:>6}".format(word,co
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/348458
推荐阅读
相关标签
  

闽ICP备14008679号