赞
踩
目标网址:https://wallhaven.cc/toplist
页面向下滑动,很容易会发现该网站的一些特点:
1.每页壁纸的数量是固定的,为24张
2.在向下滑动过程中,由于加载出其他页数的壁纸,浏览器顶部的网址也会发生改变
观察网站结构、反爬机制等,检测是否可以进行爬虫
import requests
import time
from lxml import etree
headers = {
# 参数UA,用以模拟浏览器向服务器发送请求
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome/94.0.4606.61 Safari/537.36 Edg/94.0.992.31',
# 参数cookie,用以登录图片网站,可获取NSFW类型的图片
# 'cookie': '(填入自己的cookie地址)',
}
def get_urls(__page__):
# 初始化一个空列表,用以存储壁纸的图像链接
src_urls = []
# 根据页码不同,定制不同的URL
base_url = 'https://wallhaven.cc/toplist'
if page == 1:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。