当前位置:   article > 正文

python 基础教程:使用jieba库对文本进行分词_机器学习jieba分词步骤

机器学习jieba分词步骤

一、jieba库是什么?

Python的jieba库是一个中文分词工具,它可以将一段中文文本分割成一个一个的词语,方便后续的自然语言处理任务,如文本分类、情感分析等。jieba库使用了基于前缀词典的分词方法,能够处理中文的各种复杂情况,如歧义词、新词等。它还提供了多种分词模式,如精确模式、全模式、搜索引擎模式等,以适应不同场景的需求。此外,jieba库还支持用户自定义词典,使得分词结果更加准确。

二、安装jieba库

 pip install jieba
  • 1

三、查看jieba版本

 pip show jieba
  • 1

Name: jieba
Version: 0.42.1
Summary: Chinese Words Segmentation Utilities
Home-page: https://github.com/fxsjy/jieba
Author: Sun, Junyi
Author-email: ccnusjy@gmail.com
License: MIT
Requires:
Required-by:

四、使用方法

1.引入库

import jieba
  • 1

2.定义需要分词的文本

text = "我爱发动态,我喜欢使用搜索引擎模式进行分词"
# 对于刚学Python的小伙伴,我还给大家准备了Python基础教程、数百本电子书
# 直接在这个Q裙自取即可:279199867  
  • 1
  • 2
  • 3

3.使用分词模式进行分词

3.1、精确模式(默认)
试图将句子最精确地切开,适合文本分析。

seg\_list = jieba.cut(text)
  • 1

3.2、全模式
把句子中所有的可能成词的词语都扫描出来,速度很快,但是不能解决歧义。

seg\_list = jieba.cut(text, cut\_all=True)
  • 1

3.3、搜索引擎模式
在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

seg\_list = jieba.cut\_for\_search(text)
  • 1

4.将分词结果转换为列表

word\_list = list(seg\_list)
  • 1

5.打印分词结果

print(word\_list)
  • 1

6.分词效果对比

6.1、精确模式(默认)

\['我爱发', '动态', ',', '我', '喜欢', '使用', '搜索引擎', '模式', '进行', '分词'\]
  • 1

6.2、全模式

\['我', '爱', '发动', '动态', ',', '我', '喜欢', '使用', '搜索', '搜索引擎', '索引', '引擎', '模式', '进行', '分词'\]
  • 1

6.3、搜索引擎模式

\['我爱发', '动态', ',', '我', '喜欢', '使用', '搜索', '索引', '引擎', '搜索引擎', '模式', '进行', '分词'\]
  • 1

好了,今天的分享就到这里!如果你对Python感兴趣,想要学习pyhton,这里给大家分享一份Python全套学习资料,里面的内容都是适合零基础小白的笔记和资料,超多实战案例,不懂编程也能听懂、看懂。

需要的话可以微信扫描下方二维码免费获得。

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
在这里插入图片描述
二、Python学习软件

工欲善其事,必先利其器。学习Python常用的开发软件都在这里了!
在这里插入图片描述
三、Python入门学习视频

还有很多适合0基础入门的学习视频,有了这些视频,轻轻松松上手Python~在这里插入图片描述

四、Python练习题

每节视频课后,都有对应的练习题哦,可以检验学习成果哈哈!
在这里插入图片描述

五、Python实战案例

光学理论是没用的,要学会跟着一起敲代码,动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。这份资料也包含在内的哈~在这里插入图片描述

六、Python面试资料

我们学会了Python之后,有了技能就可以出去找工作啦!下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述
在这里插入图片描述
七、资料领取

上述完整版Python全套学习资料已经上传CSDN官方,需要的小伙伴可自行微信扫描下方CSDN官方认证二维码免费领取

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/626506
推荐阅读
相关标签
  

闽ICP备14008679号