当前位置:   article > 正文

爬虫学习笔记_网页开发者模式如何找到reuest url

网页开发者模式如何找到reuest url

1、请求库

request.get:针对get请求方式的网页获取方法

request.post:针对post请求方式的网页获取方法

request.put:针对put请求方式的网页获取方法

2、获取URL

按F12,打开开发者模式,在名称里选择需要的数据(比较预览里的数据和网页上的数据),

 找到数据后,在headers里寻找URL,request url便是需要寻找的URL

3、构造请求头

在headers里找到请求头所需的数据

headers={
    'Accept':' */*',
    'Accept-Encoding':' gzip, deflate',
    'Accept-Language':' zh-CN,zh;q=0.9',
    'Connection':' keep-alive',
    'User-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'referer':'http://data.eastmoney.com/zjlx/detail.html'
    }

其中页码变化与URL变化有关,若需更改页码,只需改URL里page index=?

若想获取全部页码的数据:添加一个for循环for index in range(1,pn);将URL里pn=1改为pn={},并在最后加上.format(pn)

此时的数据类型是json,用时需要将jQuery112303987292499813875_1634567092516({rc: 0, rt: 6, svr: 182993898, lt: 1, full: 1, data: {total: 4620,…}})进行转换,即去掉jQuery112303987292499813875_1634567092516

访问网页时需要添加user agent,是用户代理(身份证),即伪装一下再进行访问;若直接通过URL访问,这是通过代码访问,会出错           

在请求时带上请求头,还需带上防盗链referer。目的:确定来路

4、抓取数据

利用BeautifulSoup4库,BeautifulSoup4是Python的一个库,最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,可以简化处理过程。使用BeautifulSoup解析一段代码,能够得到一个 BeautifulSoup 的对象,并能按照标准的缩进格式的结构输出

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/226587
推荐阅读
相关标签
  

闽ICP备14008679号