当前位置:   article > 正文

python词云自定义形状_使用jieba、wordCloud生成自定义形状的中文词云

jieba wordcloud 形状

工具集

安装Python

直接到Python官网下载安装即可。我用的是Python 3.7,链接如下:

打开cmd窗口并设置环境变量打开cmd窗口

使用pushd切换到工作目录

pushd H:\Rudy\Project\自媒体\微信公众号_精打细算买好物\词云

注意:请将路径替换成你自己的工作目录。

设置环境变量

SET PATH=C:\Users\My\AppData\Local\Programs\Python\Python37;C:\Users\My\AppData\Local\Programs\Python\Python37\Scripts;%PATH%

注意:路径是你自己电脑上的Python安装路径。

安装结巴中文分词jieba

在cmd窗口,用以下命令安装jieba,这里用的是清华大学的pip源。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

安装wordCloud

在cmd窗口这,用以下命令安装wordCloud,这里用的是清华大学的pip源。

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple wordCloud

处理中文分词

输入jieba_in.txt:用来生成词云图的原始文本。jieba_in.txt截图

jieba_userdict.txt:不想被拆分的自定义词语字典。比如我的微信微信公众号“精打细算买好物”,结巴分词默认会分成“精打细算”、“买”、“好物”三个词语,但只要我把“精打细算买好物”加到到这个文件里,那么结巴分词就不会拆分它,而是把它当成一个词语输出。一个词语占一行。jieba_userdict.txt截图

输出jieba_out.txt:用来生成词云图的最终文本,是wordCloud的输入文件。jieba_out.txt截图

处理步骤

很简单, 一个命令就可以搞定了:

python -m jieba -u jieba_userdict.txt jieba_in.txt > jieba_out.txt

如果你的文本文件是UTF-8编码的, 那就用以下命令指定文件编码即可。

python -X utf8 -m jieba -u jieba_userdict.txt jieba_in.txt > jieba_out.txt

处理词云形状

输入:wc_org.jpg:计划用来生成词云的原始形状文件

输出:wc_mask.png:词云的形状。

wc.png:词云中字体的颜色。

处理步骤

1)选中用来生成词云的主要图案,Ctrl+C复制。

2)创建一个新文件,然后Ctrl+V粘贴

3)将新文件导出为:wc_org_main.jpg。

使用https://www.remove.bg 把wc_org_main.jpg的背景去掉

1)打开网页,把上一步生成的wc_org_main.jpg拖动到网页上,即可去掉背景。

2)去掉背景后,默认是透明的。但是wordCloud不能处理透明背景,所以我们要把背景设为白色,然后下载重命名为wc.png。这个wc.png有两个用途:一是用来制作词云的形状,二是用来定义词云中字体的颜色。

1)打开上一步生成的wc.png。

2)使用魔棒,选中所有白色区域。

3)反选,再按键盘“Delete”键删除

4)使用黑色填充,然后导出文件为:wc_mask.png,这就是wordCloud用来生成词云的形状文件。

生成词云

输入jieba_out.txt:经过中文分词处理用于生成词云的文本文件

wc_stopwords.txt:除外文件。文件中的词语不会出现在词云。

wc.png:词云字体的配色。

wc_mask.png:词云形状。

字体文件名:在C:\Windows\Fonts中选一个字体,右键属性即可得到字体的文件名。*.TTF文件可以,*.fon文件不支持,其他字体文件未测试。

输出out.png:词云的图形文件。

处理步骤默认配色

在cmd窗口里,运行一下命令即可:

wordcloud_cli --text jieba_out.txt --imagefile out.png --mask wc_mask.png --fontfile STXINGKA.TTF --stopwords wc_stopwords.txt

指定配色文件

在cmd窗口里,运行一下命令即可:

wordcloud_cli --text jieba_out.txt --imagefile out.png --mask wc_mask.png --fontfile STXINGKA.TTF --stopwords wc_stopwords.txt --colormask wc.png

白色背景

在cmd窗口里,运行一下命令即可:

wordcloud_cli --text jieba_out.txt --imagefile out.png --mask wc_mask.png --fontfile STXINGKA.TTF --stopwords wc_stopwords.txt --colormask wc.png --background white

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/557058
推荐阅读
相关标签
  

闽ICP备14008679号