赞
踩
放假前入的坑,现在开始填坑,我也是小白,有错误或者可改进的地方,希望大佬可以指正
我尽量按照我觉得最简单的循序介绍爬虫;这篇文章是在吃鸡匹配的空闲时间写完的,下一篇文章写HTML的,是的,为了学爬虫,我把HTML也学了学
requests和urllib我选择了requests,因为网上和书上都在说requests更简单一点
安装教程看我的
上篇文章去
导入request模块
import requests
获取一个网站试水 百度吧
r=requests.get('https://www.baidu.com/')
比如说百度搜索郭翰林,对于wd参数(搜索词)和m参数(搜索结果数量)可以人工拼接组成URL;requests可以更好的解决
import requests
if __name__ == '__main__':
payload={'wd':'温文儒雅郭翰林','rn':'100'}
r=requests.get("https://www.baidu.com/",params=payload)
print(r.url)
wd=%E6%B8%A9%E6%96%87%E5%84%92%E9%9B%85%E9%83%AD%E7%BF%B0%E6%9E%97&rn=100巴拉巴拉这些乱码就是温文儒雅郭翰林
params也可以
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36',
}
params = {
'myMessage': 'message'
}
url = 'https://www.httpbin.org/get'
response = requests.get(url, headers=headers, params=params)
print(response.text)
print(response.url)
import requests
if __name__ == '__main__':
r=requests.get('https://www.baidu.com/')
r.text
print(r.text)
查看网页的编码
import requests
if __name__ == '__main__':
r=requests.get('https://www.baidu.com/')
r.encoding
print(r.encoding)
结果:ISO-8859-1
百度不应该是utf-8编码吗?来兴趣了,我换了几个网址
好像百度主页是ISO编码,问答那些是utf-8编码
r.text可以获取效应内容
还有r.content
我专门多看了几本书对于这个编码的解释,发现可以修改编码然后去获取网页内容
这样
r.encoding='utf-8'
import requests
if __name__ == '__main__':
r=requests.get('https://www.baidu.com/s?wd=%E5%B7%B4%E6%8B%89%E5%B7%B4%E6%8B%89&rsv_spt=1&rsv_iqid=0x846540f100057404&issp=1&f=8&rsv_bp=1&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_dl=ib&rsv_enter=1&rsv_sug3=6&rsv_sug1=4&rsv_sug7=100')
r.status_code
print(r.status_code)
结果200
r=requests.get('https://www.baidu.com/khugershkhgegeiiv')
网站瞎打的当然是404了 嘿呀 404 某狗每次看到404就来问我要新域名
heders是网站用来识别访问的最常用手段;header有很多,主要的也就是Host;User-Agent,Referer,Accept,Accept-Encoding,Connerction和Accept-Language
说多了,其实吧也就user-agent 和Referer重要一点,反爬虫一般就检查这两个,而且必须要加User-Agent(显示浏览器相关信息),他们是以键对的形式展现出来,如果user-agent 以字典键对形式作为headers的内容,就可以反爬成功,就不需要其他键对;否则,需要加入headers下的更多键对形式。
随便开个网站 fn加f12,或者是f12,还可以鼠标右键点击检查
打开network
找到 name下随意一行
Headers 下滑找到User-Agent
requests函数可以自定义请求头信息和urllib库作用差不多,但是更简单一点
随便说一下手机端和电脑端的网页显示不同了,手机端简洁,动态效果少,关键信息一个不少,便于爬取,我们就可以把UA改成Android系统; 废话,以后实战讲
r.headers
{
'user - agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36Edg / 87.0.664.75'
}
import requests
if __name__ == '__main__':
r=requests.get('https://www.baidu.com/ ')
r.headers
{
'user - agent': 'Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome / 87.0.4280.141Safari / 537.36Edg / 87.0.664.75'
}
print(r.headers['content-type'])
结果是text/html; charset=iso-8859-1
随便在说一下header的参数
HTTP 协议的 Header 是一块数据区域,分为请求头和响应头两种类型,客户端向服务区发送请求时带的是请求头,而服务器响应客户端数据时带的是响应头。
请求头里主要是客户端的一些基础信息,UA(user-agent)就是其中的一部分,而响应头里是响应数据的一些信息,以及服务器要求客户端如何处理这些响应数据的指令。请求头里面的关键信息如下:
响应头里的关键信息有:
通过timeout属性设置超时;过了这个时间还没有获得效应内容,提示错误
import requests
if __name__ == '__main__':
r=requests.get('https://www.baidu.com/' ,timeout=0.00001)
print(r.text)
时间设置过短,必然报错
时间改的长一点就ok了
import requests
if __name__ == '__main__':
r=requests.get('https://www.baidu.com/' ,timeout=0.1)
print(r.text)
timeout说完了,reteying怎么可能不提一下?
Scripts文件夹里面pip install retrying一下就可以使用了
这样就okk了
如果访问一个网站出现了报错,有可能是网络情况不好(比如说我宿舍的宽度总是坏,而且就我一个人的经常坏,差不多每天都会莫名其妙断连,严重影响我的游戏体验,而且1650运行赛博朋克的效果和1977一样,端游直接劝退),这个时候我们应该是重新请求服务器,甚至是重新请求好几次。retrying库登场
import requests from retrying import retry headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'} #让函数反复执行4次,4次全部报错才会报错 @retry(stop_max_attempt_number=4) def parse_url1(url): print("*"*50) response = requests.get(url, headers=headers, timeout=5) return response.content.decode() def parse_url(url): try: html_str = parse_url1(url) except: html_str = None return html_str if __name__ == '__main__': print(parse_url('http://www.baidu.com'))
这是执行一次的结果
换个瞎打的地址
四次返回结果错误
采集时为避免封IP;可以使用代理,request的proxies就有用处了
查看IP地址
打开cmd然后ipconfig
http://www.goubanjia.com/ 免费的IP
高匿就是服务器不知道你用了代理,也不知道你的真实IP
匿名就是知道你用了`代理,不知道你的真实IP
透明就是服务器知道你代理还知道你的真实ip
import requests # 更改ip proxies = { "http": "http://220.181.111.37:80", # http 型的 "https": "http://10.10.1.10:1080" # https 型的 } # 用百度检测ip代理是否成功 url = 'http://www.neea.edu.cn/' # 请求网页传的参数 params = { 'wd': 'ip地址' } # 请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36' } # 发送get请求 response = requests.get(url=url, headers=headers, params=params, proxies=proxies) # 获取返回页面保存到本地,便于查看 with open('ip.html', 'w', encoding='utf-8') as f: f.write(response.text)
找了好几个代理,都不行,但是我现在这个可以跑,可能是找的IP被封了,找不到可用的免费ip
import requests # 更改ip proxies = { "http": "121.233.227.138:9999", # http 型的 "https": "113.195.157.122:9999" # https 型的 } # 用百度检测ip代理是否成功 url = 'https://www.baidu.com/s?wd=ip' # 请求头 # 发送get请求 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.50' } response = requests.get(url=url, headers=headers) # 获取返回页面保存到本地,便于查看 with open('ip1.html', 'w', encoding='utf-8') as fp: fp.write(response.text)
打开ip1.html跳转的就可以看到我的真实IP了,代理失败,找到了有免费的IP滴滴我
结束了,准备开始实战
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。