当前位置:   article > 正文

Python创建免费Ip代理池,伪装Ip。_python requests 伪造ip

python requests 伪造ip

Python创建免费Ip代理池

主要使用requests第三方库。欸嘿,有了这个,就不用花钱买Ip了,生活小妙招。妙哇。

一、具体思路

1.利用requests爬取免费代理Ip的网页
2.存储列表后,导出依次发送请求到网页
3.判定Ip是否合法(就是能不能用的意思)
4.合法Ip录入总列表
5.遇到封Ip的网页,调用该源码py循环遍历总列表,直到爬完。

示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

二、代码

1.引入库

import requests
from lxml import etree
  • 1
  • 2

2.爬取免费Ip网页的请求头

headers={
    'User-Agent':'使用自己的用户代理哇,啥?你不会找?看我上一篇文章把。'
}
proxies = {
    'http': '同理哇'
}
# 爬取代理池Ip的请求头
def Get_text(url,headers):
    resoe=requests.get(url,headers=headers)
    resoe.encoding='utf-8'
    return resoe.text
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

3.爬取的信息录入

def main():
	url = '输入免费代理Ip页面'
    Dbhtml = etree.HTML(Get_text(url, headers))
    Dip = Dbhtml.xpath('Xpath,请分析js')
    # 录入有效Ip
    for j in Dip:
        proxies['http']=j
        Pdurl = '测试Ip是否合法的网页(就是随便找一个就行)'
        Pdhtml = Get_Pd(Pdurl, headers,proxies)
        if Pdhtml == 'OK':
            list_1.append(j)
    print(list_1)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

判断Ip是否合法

def Get_Pd(Pdurl,headers,proxies):
    try:
        respon = requests.get(Pdurl,headers=headers,proxies=proxies)
        respon.encoding = 'utf-8'
        return 'OK'
    except Exception as v:
        print(f"请求失败,无效Ip,{v}")
        return 'Stop'
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

全部代码

import requests
from lxml import etree

headers={
   'User-Agent':''
}
proxies = {
    'http': ''
}
# 爬取代理池Ip的请求头
def Get_text(url,headers):
    resoe=requests.get(url,headers=headers)
    resoe.encoding='utf-8'
    return resoe.text
# 判断Ip是否合法
def Get_Pd(Pdurl,headers,proxies):
    try:
        respon = requests.get(Pdurl,headers=headers,proxies=proxies)
        respon.encoding = 'utf-8'
        return 'OK'
    except Exception as v:
        print(f"请求失败,无效Ip,{v}")
        return 'Stop'
# 爬取代理池Ip
def main():
    Dbhtml = etree.HTML(Get_text(url, headers))
    Dip = Dbhtml.xpath('')
    # 录入有效Ip
    for j in Dip:
        proxies['http']=j
        Pdurl = ''
        Pdhtml = Get_Pd(Pdurl, headers,proxies)
        if Pdhtml == 'OK':
            list_1.append(j)
    print(list_1)
if __name__ == '__main__':
    list_1 = []
    main()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38

总结

本文章纯属记录自身所学所写代码,不商用。
欸嘿嘿嘿,有了免费的代理Ip池就可以获取大量需要的信息了。什么?不会分析js的Xpath?不会分析申请头? 关注博主,博主会更新的。
请各位虫友自觉遵守http协议,不恶意爬虫,不破坏网络安全环境。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/525617
推荐阅读
相关标签
  

闽ICP备14008679号