赞
踩
小 结
本案例的目的是展示数据分析的主要过程。
只需使用Excel和两个在线工具,不需要编程,可以得到一个定制程度很高的词云图。
步骤一:数据采集。从“豆瓣电影”采集影评文本,使用Excel的“从网页获取数据”功能。Excel这个功能相当于一个简便的爬虫,可以采集一些简单网页的信息。
步骤二:数据清洗。采集到的影评文本夹杂了一些无用的信息,会影响下一步的分析,因此用Excel的自定义筛选功能,将无用信息筛选出来,清除。
步骤三:词频统计。将清洗后的影评文本进行中文分词和词频统计,使用 “语料库在线”提供的“字词频率统计”工具。这是一个免费的在线工具,最多能处理10万汉字的文本。将影评文本粘贴到在线工具的输入框,即可获得关键词的词频。为了使词云的效果更好,可以人工进行筛选,只选用与电影主题有关的词的统计结果。诸如“的”、“了”、“我”、“在”等词的统计结果可以忽略,不用于下一步分析。
步骤四:词云制作。使用免费的在线工具“word art”。这是一个定制化程度很高的词云制作工具。需要准备的素材有关键词及其词频、词云形状的图片文件、汉字字体(该工具只自带英文字体,汉字字体需要从本机上传)。经过一系列设置(可以直接使用默认值,也可以反复尝试,调整效果,精细设置),就可以得到一幅精美的词云图了。
动手试试吧!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。