当前位置:   article > 正文

Python爬虫实战 — — Wallhaven壁纸高清原图下载_wallhaven怎么下载4k图片

wallhaven怎么下载4k图片


一、网站分析

目标网址:https://wallhaven.cc/toplist
在这里插入图片描述

页面向下滑动,很容易会发现该网站的一些特点:
1.每页壁纸的数量是固定的,为24张
2.在向下滑动过程中,由于加载出其他页数的壁纸,浏览器顶部的网址也会发生改变


二、可行性分析

观察网站结构、反爬机制等,检测是否可以进行爬虫

  • 获取单张壁纸的网址:在单张壁纸上右击“检查”,便可以定位到目标网站的超链接网址
    标签a中的属性href的值
    —— 测试用例:https://wallhaven.cc/w/pky5mm
    在这里插入图片描述
  • 获取当前壁纸的图像链接:类似于上一步骤,在壁纸上右击“检查”,便可以定位到该图像链接
    标签img中的属性src的值
    ——测试用例:https://w.wallhaven.cc/full/pk/wallhaven-pky5mm.jpg
    在这里插入图片描述
  • 成功获取图像链接,爬虫可行!

三、代码分析

1.所需第三方库与请求头

import requests
import time
from lxml import etree

headers = {
   
    # 参数UA,用以模拟浏览器向服务器发送请求
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/94.0.4606.61 Safari/537.36 Edg/94.0.992.31',
    # 参数cookie,用以登录图片网站,可获取NSFW类型的图片
    # 'cookie': '(填入自己的cookie地址)',
}
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

2.获取当前页的所有壁纸图像链接

def get_urls(__page__):
    # 初始化一个空列表,用以存储壁纸的图像链接
    src_urls = []
    # 根据页码不同,定制不同的URL
    base_url = 'https://wallhaven.cc/toplist'
    if page == 1:
       
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/AllinToyou/article/detail/101689
推荐阅读
相关标签
  

闽ICP备14008679号