赞
踩
在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程:
语言:python
IDE:pycharm
首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两:
- import requests //用于请求网页
- import re //正则表达式,用于解析筛选网页中的信息
其中re是python自带的,requests库需要我们自己安装,在命令行中输入pip install requests即可。
然后随便找一个网站,注意不要尝试爬取隐私敏感信息,这里找了个表情包网站:
注:此处表情包网站中的内容本来就可以免费下载,所以爬虫只是简化了我们一个个点的流程,注意不能去爬取付费资源。
我们要做的就是通过爬虫把这些表情包下载到我们电脑里。
首先肯定要通过python访问这个网站,代码如下:
- headers = {
- 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
- }
- response = requests.get('https://qq.yh31.com/zjbq/',headers=headers) //请求网页
其中之所以要加headers这一段是因为有些网页会识别到你是通过python请求的然后把你拒绝,所以我们要换个正常的请求头。可以随便找一个或者f12从网络信息里复制一个。
然后我们要找到我们要爬取的图片在网页代码里的位置,f12查看源代码,找到表情包如下:
然后建立匹配规则,用正则表达式把中间那串替换掉,最简单的就是.*?
t = '<img src="(.*?)" alt="(.*?)" width="160" height="120">'
像这样。
然后就可以调用re库里的findall方法把相关内容爬下来了:
result = re.findall(t, response.text)
返回的内容是由字符串组成的列表,最后我们经由爬到的地址通过python语句把图片下下来保存到文件夹里就行了。
- import requests
- import re
- import os
-
- image = '表情包'
- if not os.path.exists(image):
- os.mkdir(image)
- headers = {
- 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
- }
- response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)
- response.encoding = 'GBK'
- response.encoding = 'utf-8'
- print(response.request.headers)
- print(response.status_code)
- t = '<img src="(.*?)" alt="(.*?)" width="160" height="120">'
- result = re.findall(t, response.text)
- for img in result:
- print(img)
- res = requests.get(img[0])
- print(res.status_code)
- s = img[0].split('.')[-1] #截取图片后缀,得到表情包格式,如jpg ,gif
- with open(image + '/' + img[1] + '.' + s, mode='wb') as file:
- file.write(res.content)

最后结果就是这个样子:
关于Python技术储备
学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!
一、Python所有方向的学习路线
Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、Python必备开发工具
三、精品Python学习书籍
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、Python视频合集
观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
六、Python练习题
检查学习结果。
七、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
最后祝大家天天进步!!
上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。