Python 爬虫实战（1）：分析豆瓣中最新电影的影评并制作词云_影评挖掘分析爬虫

作者：繁依Fanyi0 | 2024-03-24 09:56:53

踩

影评挖掘分析爬虫

入门Python不久，想做个小项目练练手，碰巧最近一部国产电影《红海行动》反响不错，便萌生想法去抓取一下它最新的评论，并制作词云，来看看网页对这部电影的一些评价，接下来就是开始分析啦（分析过程也参考了很多其他博主的博文，原凉我个渣渣。。。）

操作环境：Python 3.6、Pycharm 2017.2.3

一、抓取网页数据

第一步就是要对你所要抓取的网页进行访问，获取网页内容，Python用的是urllib库，先去豆瓣电影的正在上映那里看看
这里写图片描述
看到没有，那部《红海行动》正是我们要抓取的，它的网址是 https://movie.douban.com/cinema/nowplaying/guangzhou/ ，先抓取这个网页先。

第二步，没错，看到那个网页上还有其他很多电影，那么我们怎么抓取我们想要的那部的，接下来就要解析这个网页了，借助chorme的开发工具,按F12,找到我们要找的那部电影，发现我们需要的数据在这个标签
这里写图片描述
从上图中可以看出在div id=”nowplaying“标签开始是我们想要的数据，里面有电影的名称、评分、主演等信息，需要用到find_all来读取HTML中的内容，代码如下

其中nowplaying_movie_list 是一个列表，在上图中可以看到data-subject属性里面放了电影的id号码，而在img标签的alt属性里面放了电影的名字，因此我们就通过这两个属性来得到电影的id和名称。（注：打开电影短评的网页时需要用到电影的id，所以需要对它进行解析），编写代码如下
这里写图片描述
其中列表nowplaying_list中就存放了最新电影的id和名称，可以使用pr

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/301583