赞
踩
主要使用requests第三方库。欸嘿,有了这个,就不用花钱买Ip了,生活小妙招。妙哇。
1.利用requests爬取免费代理Ip的网页
2.存储列表后,导出依次发送请求到网页
3.判定Ip是否合法(就是能不能用的意思)
4.合法Ip录入总列表
5.遇到封Ip的网页,调用该源码py循环遍历总列表,直到爬完。
示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。
import requests
from lxml import etree
headers={
'User-Agent':'使用自己的用户代理哇,啥?你不会找?看我上一篇文章把。'
}
proxies = {
'http': '同理哇'
}
# 爬取代理池Ip的请求头
def Get_text(url,headers):
resoe=requests.get(url,headers=headers)
resoe.encoding='utf-8'
return resoe.text
def main():
url = '输入免费代理Ip页面'
Dbhtml = etree.HTML(Get_text(url, headers))
Dip = Dbhtml.xpath('Xpath,请分析js')
# 录入有效Ip
for j in Dip:
proxies['http']=j
Pdurl = '测试Ip是否合法的网页(就是随便找一个就行)'
Pdhtml = Get_Pd(Pdurl, headers,proxies)
if Pdhtml == 'OK':
list_1.append(j)
print(list_1)
def Get_Pd(Pdurl,headers,proxies):
try:
respon = requests.get(Pdurl,headers=headers,proxies=proxies)
respon.encoding = 'utf-8'
return 'OK'
except Exception as v:
print(f"请求失败,无效Ip,{v}")
return 'Stop'
import requests from lxml import etree headers={ 'User-Agent':'' } proxies = { 'http': '' } # 爬取代理池Ip的请求头 def Get_text(url,headers): resoe=requests.get(url,headers=headers) resoe.encoding='utf-8' return resoe.text # 判断Ip是否合法 def Get_Pd(Pdurl,headers,proxies): try: respon = requests.get(Pdurl,headers=headers,proxies=proxies) respon.encoding = 'utf-8' return 'OK' except Exception as v: print(f"请求失败,无效Ip,{v}") return 'Stop' # 爬取代理池Ip def main(): Dbhtml = etree.HTML(Get_text(url, headers)) Dip = Dbhtml.xpath('') # 录入有效Ip for j in Dip: proxies['http']=j Pdurl = '' Pdhtml = Get_Pd(Pdurl, headers,proxies) if Pdhtml == 'OK': list_1.append(j) print(list_1) if __name__ == '__main__': list_1 = [] main()
本文章纯属记录自身所学所写代码,不商用。
欸嘿嘿嘿,有了免费的代理Ip池就可以获取大量需要的信息了。什么?不会分析js的Xpath?不会分析申请头? 关注博主,博主会更新的。
请各位虫友自觉遵守http协议,不恶意爬虫,不破坏网络安全环境。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。