当前位置:   article > 正文

第十章 Python第三方库_python文本处理第三方库

python文本处理第三方库

1.第三方库的获取和安装

Python第三方库依照安装方式灵活性和难易程度有三个方法:pip工具安装自定义安装文件安装

pip工具安装

最常用且最高效的Python第三方库安装方式是采用pip工具安装。pip是Python官方提供并维护的在线第三方库安装工具。(下载太慢时可使用第三条)

pip install 库名
pip3 install 库名
pip3 install -i https://pypi.douban.com/simple/ 库名

pip和pip3区别

① 可以通过pip show SomePackage查看安装位置。
② 如果系统中只安装了Python2,那么就只能使用pip。
③ 如果系统中只安装了Python3,那么既可以使用pip也可以使用pip3,二者是等价的。
④ 如果系统中同时安装了Python2和Python3,则pip默认给Python2用,pip3指定给Python3用。

自定义安装

自定义安装指按照第三方库提供的步骤方式安装。第三方库都有主页用于维护库的代码和文档。以科学计算用的numpy为类,开发者维护的官方主页是:http://www.numpy.org/,浏览该网页找到下载链接:https://numpy.org/news/#releases,然后根据提示步骤安装。

文件安装

1)下载.whl文件(下载地址:https://pypi.org/ 或 https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud)。
2)cmd打开命令窗口,cd进入到下载目录,使用如下命令安装:

pip3 install 文件名称.whl

pip常用命令

pip -h 列出pip常用子命令
pip install 安装
pip download 下载
pip uninstall 卸载
pip list 查看列表
pip search 查找

2.PyInstaller库(必选)

PyInstaller是十分有用的Python第三方库,它能够在Windows,Linux,Mac OS X等操作系统下将Python源文件打包变成直接可运行的可执行文件(exe文件)。通过对源文件打包,Python程序可以在没有安装Python的环境中运行,也可以作为一个独立文件方便传递和管理。
安装方式:pip install pyinstaller

打包命令

打包命令(纯净版,exe文件):pyinstaller -F 文件名
打包命令(文件夹版,源文件所在目录将生成dist和build两个文件夹,使用dist文件夹中的exe文件]与源文件同名的exe文件]可直接打开程序):pyinstaller 文件名

PyInstaller常用参数

在这里插入图片描述需要用户输入或展示的时候会生成黑窗口,加参数-w

3.第三方库:jieba库(必选)、wordcloud库(可选)

jieba库

1)由于中文文本中的单词不是通过空格或者标点符号分割,中文及类似语言存在一个重要的“分词”问题。
2)jieba(“结巴”)是Python中一个重要的第三方中文分词函数库。安装方式:pip install jieba
3)jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组。除了分词jieba还提供增加自定义中文单词的功能。
4)jieba库三种分词模式:精确模式,将句子最精确的切开,适合文本分析;全模式,把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式基础上对长词再次切分,提高召回率,适用于搜索引擎分词。

三种分词方法+向词库添加单词

① jieba.lcut(s) 是最常用的中文分词函数,用于精准模式,即将字符串分割成等量的中文词组,返回结果是列表类型。

在这里插入图片描述

② jieba.lcut(s,cut_all = True) 用于全模式,即将字符串的所有分词可能均列出来,返回结果是列表类型,冗余性最大。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/729683
推荐阅读
相关标签
  

闽ICP备14008679号