当前位置:   article > 正文

python爬虫爬取的数据与浏览器获取的数据不一样 爬虫爬取到的数据一直不变_爬虫post请求的响应数据与浏览器不一致或少了

爬虫post请求的响应数据与浏览器不一致或少了

具体问题

在爬取某个网站时遇到了一个奇怪的问题,就是只要是python爬取的数据得到的基本就是那么几种数据,无论我输入的是什么,返回的数据与浏览器得到返回的数据都不一样,这让我很郁闷,百度也找不到想要的答案。直到最后才发现是自己对python不够了解,不是网站问题,是自己的问题。

解决方法

requests库中,requests.post()方法中构造参数data时,data里面非ASCII字符就会进行编码。而构造消息请求头headers时,headers里面的非ASCII字符不会自动的进行编码。也就是如果你爬虫的请求消息头和请求参数都与输入有关并且是非ASCII字符的话你需要用parse.quote()方法进行编码,headers用编码后的输入值,否则执行会报错。data直接使用输入值,否则二次编码会改变你的请求值导致爬取的数据与浏览器中得到的数据不一致。

示例代码

  1. import requests
  2. from urllib import parse
  3. begin_put = input("输入:")
  4. after_put = parse.quote(begin_put)
  5. headers = {
  6. "Host": "aaa.net",
  7. "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0",
  8. "Accept": "application/json, text/javascript, */*; q=0.01",
  9. "Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2",
  10. "Accept-Encoding": "gzip, deflate",
  11. "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
  12. "X-Requested-With": "XMLHttpRequest",
  13. "Connection": "close",
  14. "Referer": "http://aaa.net/?name=" + after_put + "&type=netease"
  15. }
  16. begin_data = {
  17. "flag":"begin",
  18. "input":begin_put
  19. }
  20. after_data = {
  21. "flag":"after",
  22. "input":after_put
  23. }
  24. r = requests.post("http://httpbin.org/post",data=begin_data,headers=headers)
  25. req = requests.post("http://httpbin.org/post",data=after_data,headers=headers)

 利用抓包工具可以看到第二次请求(也就是flag值为after的)里的input值进行了二次编码。%对应的编码是%25

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/307090
推荐阅读
相关标签
  

闽ICP备14008679号