当前位置:   article > 正文

Python 爬虫实战(1):分析豆瓣中最新电影的影评并制作词云_影评挖掘分析爬虫

影评挖掘分析爬虫

入门Python不久,想做个小项目练练手,碰巧最近一部国产电影《红海行动》反响不错,便萌生想法去抓取一下它最新的评论,并制作词云,来看看网页对这部电影的一些评价,接下来就是开始分析啦(分析过程也参考了很多其他博主的博文,原凉我个渣渣。。。)

操作环境:Python 3.6、Pycharm 2017.2.3

一、抓取网页数据

第一步就是要对你所要抓取的网页进行访问,获取网页内容,Python用的是urllib库,先去豆瓣电影的正在上映那里看看
这里写图片描述
看到没有,那部《红海行动》正是我们要抓取的,它的网址是 https://movie.douban.com/cinema/nowplaying/guangzhou/ ,先抓取这个网页先。
这里写图片描述
第二步,没错,看到那个网页上还有其他很多电影,那么我们怎么抓取我们想要的那部的,接下来就要解析这个网页了,借助chorme的开发工具,按F12,找到我们要找的那部电影,发现我们需要的数据在这个标签
这里写图片描述
从上图中可以看出在div id=”nowplaying“标签开始是我们想要的数据,里面有电影的名称、评分、主演等信息,需要用到find_all来读取HTML中的内容,代码如下
这里写图片描述
其中nowplaying_movie_list 是一个列表,在上图中可以看到data-subject属性里面放了电影的id号码,而在img标签的alt属性里面放了电影的名字,因此我们就通过这两个属性来得到电影的id和名称。(注:打开电影短评的网页时需要用到电影的id,所以需要对它进行解析),编写代码如下
这里写图片描述
其中列表nowplaying_list中就存放了最新电影的id和名称,可以使用pr

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/301583
推荐阅读
相关标签
  

闽ICP备14008679号