赞
踩
在找壁纸的时候
无意间逛到一个网站,发现里面的
图都非常精美,吸引我的眼球
于是,我决定用python批量采集一下它
Python 3.8 解释器
Pycharm 编辑器
import re
import requests >>> pip install requests
win + R 输入 cmd 点击确定, 输入安装命令
pip install 模块名 (pip install requests)
在pycharm中点击
Terminal(终端) 输入安装命令
导入模块
- # 导入数据请求模块 --> 第三方模块, 需要安装 pip install requests
- import requests
- # 导入正则模块 --> 内置模块, 不需要安装
- import re
多页采集
- for page in range(2, 11):
- print(f'=================正在采集第{page}页的数据内容=================')
请求图片目录页面url
url = f'http://www.****.com/dongman/index_{page}.htm'
伪装模拟成浏览器
- headers = {
- # User-Agent 用户代理 浏览器基本身份信息
- 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
- }
发送请求
response = requests.get(url=url, headers=headers)
提取图片ID
- for img_id in img_id_list:
- # img_id变量<袋子> 给 img_id_list 列表<盒子> 里面 元素<苹果> 给装起来
- print(img_id)
请求详情页链接
link = f'http://www.*****.com/desk/{img_id}.htm'
发送请求
response_1 = requests.get(url=link, headers=headers)
获取数据内容 网页源代码
img_url, img_title = re.findall('<img src="(.*?)" alt="(.*?)"', response_1.text)[0]
保存数据
- img_content = requests.get(url=img_url, headers=headers).content
- with open('img\\' + img_title + '.jpg', mode='wb') as f:
- f.write(img_content)
- print(img_url, img_title)
好啦,本文章到这里就结束拉
有喜欢的小伙伴记得给博主一个三连哦~
希望你在学习的路上不忘初心,坚持不懈,学有所成
把时间和精力,放在自己擅长的方向,去坚持与努力,
如果不知道自己擅长什么,就尽快找到它。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。