当前位置:   article > 正文

python爬虫教程视频下载-利用Python网络爬虫获取电影天堂视频下载链接【详细教程】...

正则表达式爬虫电影天堂

相信大家都有一种头疼的体验,要下载电影特别费劲,对吧?要一部一部的下载,而且不能直观的知道最近电影更新的状态。

今天以电影天堂为例,带大家更直观的去看自己喜欢的电影,并且下载下来。

【二、项目准备】

首先 我们第一步我们要安装一个Pycharm的软件。

电影天堂网的网址:

https://www.ygdy8.net/html/gndy/dyzz/list_23_1.html

我们需要下载几个库,怎么下载呢?首先打开Pycharm点击File再点开setting。3dab831f010cbd9615a939ad3e321a19314880a4.png

打开后会出现这个界面点击你的项目名字(project:(你的项目名字))project interpreter点击加号下载我们需要的库本项目需要(requests,requests,time,re模块),如下图所示。74ec726a11e434c2bba764920262ad03390ab942.png

如果还缺少相应库的话,可以按照如下方式进行下载和安装。a8794c534d82987f5cded00e088aef5448e40f51.png

【三、项目实施】

我们需要(requests,requests,time,re模块 ),如下图所示。f25a194c9a16098001dda28a6eea9b096dbcbbf3.png

用封装方法去实现各个部分功能。首先要写一个框架 :构造一个类FilmSky 然后定义一个—init方法里继承(self),再定义一个主方法(main)。最后实现这个main方法。代码如下:8dab9aa287a9772c5d983ac71b18d5d307f1cf81.png

这个time是用于防止反爬,设置的时间延时。

首先我们来分析一下这个网址下一页得到特点。eefb07ff5a20733ec8af45f15cdebebdb21d42ea.png

通过点击了三页我们会发现地址都是在原有的基础上“23—3,4,5”这样的变化。

我们可以用{}去代替变化的值就像这样:

https://www.ygdy8.net/html/gndy/dyzz/list_23_{}.html

这样我们在inti方法初始化url地址和构造请求头。

caecc7fa2d6b201444872efe683f26e9ca5bcdda.png

在主方法main函数里边用for循环实现遍历网址。

6f658127ab5795c326b9895f9ff41c57780f257d.png

得到下图这样的结果:

51f57e70ae44976b73c5f6e5b0bf3f9f002b91e7.png

说明你已经成功一半了加油!!

现在我们需要对这些网址发生请求,为了更直观的看出来,我们用一个类写。

我们用requests发生请求 这个网站的编码是gbk (怎么看网站的编码?)。

打开一个网站右键检查在header的标签,以这个网站为例,可以看到charset=“gb312”。

这个gb2312就是编码 我们常见的编码方式有2种(utf_8, gbk)。

1a17dd08853bd9e3a0a65f1f17c30ef5be652741.png

afc78d8690363f9dda80207074ff7280bdc535b9.png

我们可以验证一下是不是真的请求到了。使用Print(html)看到这个结果(一个完整的html网页)说明请求成功。

1ade06640c909d8bcdd6a74f2527aab0877b526e.png

我们再定义这个方法(对我们的网页代码进行解析)。

我们用正则表达式 来解析数据 我们右键检查可以看到我们要的网站在table里面的

标签的标签的href。

311affbbce0529953cb81edeae9707a1cffcdc65.png

所以我们可以先找到table,一层一层的去找,可以参考一下下面的图。

正则表达式就是(.?)里面就是你想要得到的内容,“.?”就是可以省略其中的标签,取到你想要地区那一层。for循环遍历得到每个网址,点击这些网址我们要对二级页面发生请求,并解析它。

因为在网页网址上的链接有一些是空的 ,所有这样会导致电影下载的链接不匹配。所以我们要加个判断,如果下载链接的长度大于0那么就照常显示,否则就给它一个空值,这样就不会不对应了。最后返回这个结果,如下图所示。

65fafaba5bfc2e7998abf30552ed84a0b5f7f915.png

点开第二级页面如图右键点击下载链接,如下图所示:

b1a2472b545d473562fcf27a700adbdb0560db0e.png

f94a4a6e500bc0fc5333dc4ed7896b6fd78c1716.png

我们用正则表达式解析 得到我们下载链接地址,如下图所示:

9dd9cafabc72863dd8e6f0141869ad30fa0995cd.png

看去了不是很美观,我们把链接处理一下,如下图所示:

fd2154f36138ab19f203a942da433d101c7ff9d0.png

得到结果,如下图所示:244d3ebc2b2d7229b172c95137fdbd7fe29623d3.png

最后我们用把数据保存在一个字典加上下载链接和电影名字:e8fc3b4499f3dfbe4f1d95e6a883152a3e3f799e.png

最后我们优化一下请求的代码有点重复 我们优化一下;

用一个值去保存说明请求头的内容以后请求我们只有调用这个方法进行请求就好,如下图所示:c3c3c3eb56970b5a83ebddbd9e47a4858e07296d.png

程序运行之后可以看到效果图,如下图所示:0a486cf796b8db69174b7a86208d278f1ac3c6b8.png

点击蓝色的链接就可以这个下载(要下载迅雷 迅雷下载更快哇)

这样是不是能够更直观的看出你要电影啦?点击即可下载噢!

【五、总结】本文基于Python网络爬虫技术,提供了一种更直观的去看自己喜欢的电影并且方便下载的方式。

不建议抓取太多,容易使得服务器负载。我们的Python学习扣②QUN:⑧⑤⑤-④零⑧-⑧⑨③

成长离不开与优秀的同伴一起学习,如果你需要好的学习环境,好的学习资源,这里欢迎每一位热爱Python的小伙伴,与你分享互联网人才需求以及怎么从零基础学习好python,和学习什么内容。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/912810
推荐阅读
相关标签
  

闽ICP备14008679号