当前位置:   article > 正文

python数据分析——用jieba和词云做知乎的数据分析_mytext=''.join(jieba.cut(mytext))

mytext=''.join(jieba.cut(mytext))

python数据分析——用jieba和词云做知乎的数据分析


1.附上效果图

在这里插入图片描述
2.我先用爬虫爬取了知乎2019年知乎问题和描述(我之前写过的爬虫https://blog.csdn.net/weixin_45019310/article/details/89923644),再进行数据分析

在这里插入图片描述
3.先用jieba进行分词

mytext = open(r'D:\pycharm\python项目\知乎\zhihu.csv','r',encoding='utf-8').read()
#读取我文件的数据
mytext = " ".join(jieba.cut(mytext))         #进行中文分词
  • 1
  • 2
  • 3

4.再运用词云将频率高的词语放大显示,设置一张背景图片,并以背景图片的颜色为文字的颜色
在这里插入图片描述

backgroud_Image = plt.imread('python.jpg')  #设置背景图片
wc = WordCloud( background_color = 'white',  # 设置背景颜色
                mask = backgroud_Image,      # 设置背景图片
                max_words = 500,            # 设置最大现实的字数
                stopwords = STOPWORDS,       # 设置停用词
                font_path = 'SIMLI.TTF', # 设置字体格式,如不设置显示不了中文
                max_font_size = 60,          # 设置字体最大值
                color_func=None,             #设置关键字的字体颜色
                random_state = 42,           # 设置有多少种随机生成状态,即有多少种配色方案
                ).generate(mytext)
image_colors = ImageColorGenerator(backgroud_Image)
#从背景图片生成颜色值
wc.recolor(color_func = image_colors)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

5.完整代码如下

import matplotlib.pyplot as plt
#import pickle
from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator
import jieba

mytext = open(r'D:\pycharm\python项目\知乎\zhihu.csv','r',encoding='utf-8').read()
#读取我文件的数据
mytext = " ".join(jieba.cut(mytext))         #进行中文分词
backgroud_Image = plt.imread('python.jpg')  #设置背景图片
wc = WordCloud( background_color = 'white',  # 设置背景颜色
                mask = backgroud_Image,      # 设置背景图片
                max_words = 500,            # 设置最大现实的字数
                stopwords = STOPWORDS,       # 设置停用词
                font_path = 'SIMLI.TTF', # 设置字体格式,如不设置显示不了中文
                max_font_size = 60,          # 设置字体最大值
                color_func=None,             #设置关键字的字体颜色
                random_state = 42,           # 设置有多少种随机生成状态,即有多少种配色方案
                ).generate(mytext)
image_colors = ImageColorGenerator(backgroud_Image)
#从背景图片生成颜色值
wc.recolor(color_func = image_colors)
plt.imshow(wc)
#显示图片
plt.axis('off')
#关闭坐标轴
plt.show()
wc.to_file('oxie.png')
#保存图片
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/一键难忘520/article/detail/847223
推荐阅读
相关标签
  

闽ICP备14008679号