当前位置:   article > 正文

Python爬虫入门——静态网页抓取_爬取静态页面后位置变化

爬取静态页面后位置变化

Python爬虫入门——静态网页抓取

安装Requests

    pip install requests

获取响应内容:

  1. import requests
  2. r = requests.get('https://blog.csdn.net/ARPOSPF')
  3. print("文本编码:",r.encoding)
  4. print("响应状态码:",r.status_code)
  5. print("字符串方式的响应体:",r.text)

        (1)r.text是服务器响应的内容,会自动根据响应头部的字符编码进行解码

        (2)r.encoding是服务器内容使用的文本编码

        (3)r.status_code用于检测响应的状态码,如果返回200,就表示请求成功,如果返回4**,表示客户端错误,如果返回5**,表示服务器错误响应。

        (4)r.content是字节方式的响应体,会自动解码gzip和deflate编码的响应数据

        (5)r.json()是Requests中内置的JSON解码器

定制Requests

    传递URL参数:

        为了请求特定的数据,需要在URL的查询字符串中加入某些数据,数据一般会跟在一个问号后面,以键/值的形式放在URL中,如http://httpbin.org/get?key1=value1。

    定制请求头:

        请求头Headers提供了关于请求、响应或其他发送实体的信息。Requests并不会基于定制的请求头Headers的具体情况改变自己的行为,只是在最后的请求中,所有请求头信息都会被传递进去。

       

    发送POST请求:

        通过POST请求传递一些表单数据,只需要简单地传递一个字典给Requests中的data参数,这个数据字典就会在发出请求的时候自动编码为表单形式。

    超时

        可以在Requests在timeout参数设定的秒数结束之后停止等待响应。一般会把这个值设置为20秒。如果在20秒内没有应答,则返回异常。

Requests爬虫时间:TOP250电影数据

  1. import requests
  2. from bs4 import BeautifulSoup
  3. def get_movies():
  4. headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
  5. 'Host':'movie.douban.com'}
  6. movie_list = []
  7. for i in range(0,10):
  8. link = 'https://movie.douban.com/top250?start='+str(i*25)
  9. r = requests.get(link,headers=headers,timeout=20)
  10. print(str(i+1),"页面响应状态码:", r.status_code)
  11. soup = BeautifulSoup(r.text,"lxml")
  12. div_list = soup.find_all('div',class_='hd')
  13. for each in div_list:
  14. movie = each.a.span.text.strip()
  15. movie_list.append(movie)
  16. return movie_list
  17. movies = get_movies()
  18. print(movies)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/1006808
推荐阅读
相关标签
  

闽ICP备14008679号