当前位置:   article > 正文

python爬虫入门(二)之Requests库

python爬虫入门(二)之Requests库

一、储备篇

1、requests库让我们可以通过python代码去构建和发送HTTP请求

2、第三方库,要先安装

python终端,输入pip install requests

successfully installed:安装成功

requirement already satisfied: 说明已经安装过,无需再安装

若没有pip(python包管理工具

则可以先去http://pip.pypa.io/en/stable/installation/学习下载安装

3、

  1. import requests
  2. response=requests.get("http://books.toscrape.com") #发送get请求,这是一个专门给练习爬虫的网站
  3. #协议名(http://或https://)+网址 == 完整的URL
  4. #用requests库的函数发送请求时,请求头的信息会被自动生成(主机域名(URL参数中),客户端是谁(自动生成),客户端想要什么类型的数据)
  5. #若想对某些信息进行更改的话,可以额外传入一个headers的参数
  6. head={"User-Agent":"Mozilla/5.0(Windows NT 10.0;Win64;x64"} #数据类型是字典,键值对可写清楚要传入的信息
  7. #User-Agent: Mozilla/5.0(Windows NT 10.0;Win64:x64)可帮我们把爬虫程序伪装成正常浏览器(浏览器类型及版本,以及电脑操作系统等)
  8. response=requests.get("http://books.toscrape.com",headers=head)
  9. print(response) #打印出来是一个response类的实例,代表着服务器发回给我们的响应,包含的属性有:
  10. print(response.status_code) #状态码属性
  11. print(response.ok) #ok属性,true表示请求成功
  12. if response.ok:
  13. print("请求成功")
  14. #获取响应体的内容
  15. print(response.text) #text属性,会以字符串存储响应内容
  16. else:
  17. print("请求失败")

 

二、实战篇

爬取豆瓣top250数据:

  1. #1、安装requests库: 终端输入pip install requests
  2. #2、引入requests库:
  3. import requests
  4. #豆瓣用418回应爬虫,自己只希望服务于正常的浏览器
  5. #伪装:
  6. #抄作业: 选一个网页->右键检查->Network-> 刷新网页->点击任意请求->展开request haeders->找到并复制user-agent
  7. headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36"}
  8. response=requests.get("https://movie.douban.com/top250",headers=headers)
  9. print(response)
  10. print(response.status_code) #表示客户端错误,可以通过链接developer.mozilla.org查看文档
  11. print(response.text)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/811435
推荐阅读
相关标签
  

闽ICP备14008679号