当前位置:   article > 正文

python爬虫爬取付费下载的图片_python 下载vip图片

python 下载vip图片

爬取目标网站的壁纸

1.首先打开开发者模式刷新页面,查看请求数据所需的url

2.图片网站打开图片会转入另外一个网站,并不是目的所想要的直接图片文件,这里还需要进行一些搜索查找操作。

  1. response = requests.post(url=url,headers=headers)
  2. href = re.findall('<li><a target="_blank" href="(.*?)"',response.text)[2:]

3.这里先获取post的信息,发现,列表中第三个元素是想要的目标url

4.打开url是转入另外的一个网站,这个网站中有目标所需爬取的图片文件

  1. img_url = re.findall('<img alt=".*?" title=".*?" src="(.*?)">',response_1.text)[0]
  2. img_content = requests.get(url=img_url, headers=headers).content

5.设置图片文件的img_url为请求url,这里怕取得是高清图,保存到名为img的文件夹中

6.接下来就是建立文件img,将爬取到的图片放入文件夹,用正则表达式取文件标题

7.完整代码

  1. import requests
  2. import re
  3. import os
  4. filename = 'img\\'
  5. if not os.path.exists(filename):
  6. os.mkdir(filename)
  7. def changer_title(name):
  8. new_name = re.sub(r'[\/\\\:\*\?\"\<\>\|]','_',name)
  9. return new_name
  10. url = 'https://m.bcoderss.com/tag/%e5%8a%a8%e6%bc%ab/page/2/'
  11. headers={
  12. 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'
  13. }
  14. response = requests.post(url=url,headers=headers)
  15. href = re.findall('<li><a target="_blank" href="(.*?)"',response.text)[2:]
  16. for index in href:
  17. response_1 = requests.get(url=index, headers=headers)
  18. title = re.findall('<title>(.*?)</title>',response_1.text)[0]
  19. title = changer_title(title)
  20. img_url = re.findall('<img alt=".*?" title=".*?" src="(.*?)">',response_1.text)[0]
  21. img_content = requests.get(url=img_url, headers=headers).content
  22. with open(filename + title + '.jpg', mode='wb') as f:
  23. f.write(img_content)
  24. print(title, img_url)

8.爬取结果

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家小花儿/article/detail/437330
推荐阅读
相关标签
  

闽ICP备14008679号