赞
踩
最近看了一部电影《绣春刀》,里面的剧情感觉还不错,本文爬取的是绣春刀电影的豆瓣影评,1000个用户的短评,共5W多字。用jieba分词,对词语的出现频率进行统计,再通过wordcloud生成词云图。
今天和小伙伴们一起梳理下具体实现的流程,具体源代码已经上传到NLP小白 公众号中,发送“词云图”,即可获取源代码。
先上图为敬,看看豆瓣的网友评论侧重哪个方面。PS:词语出现的频率越多,字体越大
具体流程如下
一、自动化爬取 豆瓣影评
第一步 安装selenium 这是一个自动化测试工具,需要浏览器来配合使用
pip install selenium
第二步 下载 ChromeDriver 这是谷歌浏览器的驱动与 selenium 一起配合使用
找到你chrome 谷歌浏览器的对应的版本驱动 下载即可,本人用的是最新版,即红框位置
解压后 把 chromedriver.exe放到 Python的Scripts目录中即可,本人用的是Anaconda ,所以直接放入Scripts 文件。
安装环境准备好了之后,就可以进行 代码 测试 了。
import time
from selenium import webdriver
movie_url="https://movie.douban.com/subject/24745500/comments"
#绣春刀的评论界面
brower = webdriver.Chrome()
brower.get(movie_url)#启动chrome 浏览器 并跳转到 movie_url 网址
运行即启动chrome浏览器
由于豆瓣用户不登陆只能爬取短评会有限制,所以我们进行用户登录
右击chrome 选择审查元素,查看网页代码的结构
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。