赞
踩
前一段时间,有个诉求,想了解下后台,大量反馈数据,其中重点集中在哪些内容。鉴于手边并无现成工具,可以想到快捷的办法是,对数据进行统一汇总,然后分词,将占比较高的关键词汇
,生成词云图,从而形成对内容有大致解,为后面分析分析奠定方向。本文就如何基于 python 对文本做分词、快速生成词云图,做下探讨性分享。
为何选择 python
Python
是一种易于学习又功能强大的编程语言。它优雅的语法和动态类型,以及解释型语言的本质,使它成为多数平台上写脚本,以及快速开发应用的理想语言。此外,Python
具有丰富强大的功能库,可以直接加以引用,省却很多工作量。
大致思路
假如已经获得文本,只需进行以下步骤即可:
jieba
具体实现
# gen-wordcloud-img.py
import jieba
import wordcloud
import PIL.Image as image
import numpy as np
relative_path = './wordcloud/'
target_path = 'target.txt'
def get_jieba_words():
content_str = open(relative_path + target_path, 'r', encoding='utf-8').read()
return jieba.lcut(content_s
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。