赞
踩
词云图是文本数据可视化的一种形式,视觉冲击力较强,迎合现在快节奏的生活,能够让人聚焦主旨,眼前一亮。其原理是对输入的文本数据进行词频统计,根据词汇出现频率的不同,按不同比例显示词汇,生成图片,频率高的词汇显示的字号大颜色深,频率低的词汇显示的字号小颜色浅。
1)优点
应用广泛:可以应用到用户画像、舆情分析等场景下,还可以直接嵌入到PPT报告、数据分析类产品中,是对文本数据价值变现的一种手段。
制作简单:制作词云图的难度不高,没有数据处理技术背景的人也能做出有效的词云图来。
内容直接:词云图是对文本内容的高度浓缩和精简处理,能更直观的反映特定文本的内容,让读者快速捕捉文本数据主要信息。
趣味性强:可以通过调整颜色深浅、气泡大小等容易判断度量的大小,以关键词字体的大小直接展示数据的数值大小,还可以根据实际使用调整词云形状,使图表具有直观、有趣的效果。
2)缺点
信息缺失:仅仅是词汇的勾勒仍然无法展示事物原貌,缺少辅助说明信息的图表存在信息缺失的问题。
缺乏逻辑:词云图是由各类词汇在空间上按一定图形组合而形成的,这些词汇都是从有逻辑结构的文本数据中拆分出来的,从文字变成了图形后,再呈现出来的内容失去了内在的逻辑结构,需要读者将高频词汇串联起来形成联想才能获取到信息。
3)注意事项⚠️
txt文档的编码格式、中文字体的设置、对词性的设置选择、专有名词
1)绘制词云图基础代码
- import jieba#分词包
- import jieba.analyse
- from wordcloud import WordCloud#wordcloud库制作词云
- import imageio#导入图片工具包
- import matplotlib.pyplot as plt#常用绘图工具包,常用于python数据可视化
- from collections import Counter#计数,频数统计
- import pandas as pd#数据分析包
-
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。