赞
踩
内容复制自公众号,排版可能不耐看,不要介意哈。
既然已经爬取了数据,哪个guy不想顺手做下分析呢?前一期PythonGuy爬取电影《送你一朵小红花》的豆瓣影评,现在准备对数据进行简单分析,由于数据格式为文本,本次分析方法为对所有评论文字进行分词,记录所有词语出现次数(词频),按升序排序后,提取关键词,作词云图。
依赖库:numpy、wordcloud、PIL、matplotlib、jieba
1.分词
分词选用jieba,国人开发的一款优秀中文分词第三方库,其利用中文词库,确定汉字之间的关联概率,概率大的组成词语,形成分词结果,除了分词,用户还可以添加自定义词语。
本例使用jieba.analyse包对评论分词后统计词频,并提取词频前200个词语。
分词
参数解释:
sentence:待分词文本
topk:提取关键字个数
withWeight:是否返回每个关键词权重
allowPOS:是否允许提取关键词词性,默认为allowPOS='ns';'n','vn','v',提取地面,名词、动名词,动词
评论(部分原始数据)
精确模式分词
提取200个关键词
2.创建词云图
使用第三方库wordcloud创建词云,首先创建一个WordCloud对象
部分参数说明:
width:图像宽度
height:图像高度
font_path:指定字体路径
mode:颜色模型
max_font_size:最大字体大小
random_sate:随机颜色种子
mask:掩膜
scale:比例,参数大小和图像分辨率呈正相关
background_color:背景色
relative_scaling:单词出现频率对字体大小的权重
调用generate_from_frequencies(freq)方法创建词云,字典参数freq:词语为键,词频为值
所选掩膜图像
读取图片做掩膜图像
根据掩膜生成词语颜色
3.结果
生成影评词云图
分析:
观众对电影的评论褒贬不一,推测该电影易烊千玺主演,类型为青春偶像片,猜测大部分观众不是单纯为看电影而买单。至于剧情,大概是以男主/女主与病魔对抗为主线,展开一系列关乎爱情、亲情、青春的思考。
以上分析受限于作者认知水平,如有冒犯,你好像也拿我没办法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。