小丑西瓜9

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

Python大数据：jieba分词，词频统计

作者：小丑西瓜9 | 2024-04-09 10:45:12

赞

踩

jupyter根据jieba词频统计

实验目的

学习如何读取一个文件
学习如何使用DataFrame
学习jieba中文分词组件及停用词处理原理
了解Jupyter Notebook

概念

中文分词

在自然语言处理过程中，为了能更好地处理句子，往往需要把句子拆开分成一个一个的词语，这样能更好的分析句子的特性，这个过程叫就叫做分词。由于中文句子不像英文那样天然自带分隔，并且存在各种各样的词组，从而使中文分词具有一定的难度。

不过，中文分词并不追求完美，而是通过关键字识别技术，抽取句子中最关键的部分，从而达到理解句子的目的。

工具

Jupyter Notebook

Jupyter Notebook是一个交互式的笔记本工具，重点有两点
- “交互式” 让你随时随时运行并暂存结果，
- “笔记本” 记录你的研究过程

想象一下，在这之前你是如何使用Python的？

用一切可能的文本编辑工具编写代码
然后运行python xxx.py调试
当你写了一个9W条数据的处理程序之后，跑到一半报个错，又得重头开始
画图基本靠脑补

有了JN之后，你可以：

直接在网页上编写代码
按Shift + Enter立即执行当前Cell的代码段
Cell执行后的变量仍然生存，可以在下一个Cell继续使用，所以，我用第一个Cell加载9W条数据，第二个Cell开始预处理，第三个Cell进行运算等等
直接在网页上画出图片，即时调整参数Shift+Enter预览，麻麻再也不用担心我写错代码，美滋滋 ~~~

jieba

jieba模块安装请参见官方说明

jieba 是一个python实现的中文分词组件，在中文分词界非常出名，支持简、繁体中文，高级用户还可以加入自定义词典以提高分词的准确率。

它支持三种分词模式

精确模式：试图将句子最精确地切开，适合文本分析；
全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

另外它还自带有关键词摘取算法。

基于 TF-IDF 算法的关键词抽取
基于 Te

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/392183

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号