赞
踩
入门Python不久,想做个小项目练练手,碰巧最近一部国产电影《红海行动》反响不错,便萌生想法去抓取一下它最新的评论,并制作词云,来看看网页对这部电影的一些评价,接下来就是开始分析啦(分析过程也参考了很多其他博主的博文,原凉我个渣渣。。。)
操作环境:Python 3.6、Pycharm 2017.2.3
第一步就是要对你所要抓取的网页进行访问,获取网页内容,Python用的是urllib库,先去豆瓣电影的正在上映那里看看
看到没有,那部《红海行动》正是我们要抓取的,它的网址是 https://movie.douban.com/cinema/nowplaying/guangzhou/ ,先抓取这个网页先。
第二步,没错,看到那个网页上还有其他很多电影,那么我们怎么抓取我们想要的那部的,接下来就要解析这个网页了,借助chorme的开发工具,按F12,找到我们要找的那部电影,发现我们需要的数据在这个标签
从上图中可以看出在div id=”nowplaying“标签开始是我们想要的数据,里面有电影的名称、评分、主演等信息,需要用到find_all来读取HTML中的内容,代码如下
其中nowplaying_movie_list 是一个列表,在上图中可以看到data-subject属性里面放了电影的id号码,而在img标签的alt属性里面放了电影的名字,因此我们就通过这两个属性来得到电影的id和名称。(注:打开电影短评的网页时需要用到电影的id,所以需要对它进行解析),编写代码如下
其中列表nowplaying_list中就存放了最新电影的id和名称,可以使用pr
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。