当前位置:   article > 正文

python爬取豆瓣影评生成词云的课程设计报告_Python爬取豆瓣影评,生成词云图,只要简单一步即可实现。...

基于python的电影影评分析与词云展示

最近看了一部电影《绣春刀》,里面的剧情感觉还不错,本文爬取的是绣春刀电影的豆瓣影评,1000个用户的短评,共5W多字。用jieba分词,对词语的出现频率进行统计,再通过wordcloud生成词云图

今天和小伙伴们一起梳理下具体实现的流程,具体源代码已经上传到NLP小白 公众号中,发送“词云图”,即可获取源代码。

先上图为敬,看看豆瓣的网友评论侧重哪个方面。PS:词语出现的频率越多,字体越大

具体流程如下

一、自动化爬取 豆瓣影评

第一步 安装selenium 这是一个自动化测试工具,需要浏览器来配合使用

pip install selenium

第二步 下载 ChromeDriver 这是谷歌浏览器的驱动与 selenium 一起配合使用

找到你chrome 谷歌浏览器的对应的版本驱动 下载即可,本人用的是最新版,即红框位置

解压后 把 chromedriver.exe放到 Python的Scripts目录中即可,本人用的是Anaconda ,所以直接放入Scripts 文件。

安装环境准备好了之后,就可以进行 代码 测试 了。

import time

from selenium import webdriver

movie_url="https://movie.douban.com/subject/24745500/comments"

#绣春刀的评论界面

brower = webdriver.Chrome()

brower.get(movie_url)#启动chrome 浏览器 并跳转到 movie_url 网址

运行即启动chrome浏览器

由于豆瓣用户不登陆只能爬取短评会有限制,所以我们进行用户登录

右击chrome 选择审查元素,查看网页代码的结构

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/687044
推荐阅读
相关标签
  

闽ICP备14008679号