当前位置:   article > 正文

Python爬虫基本流程(自用)_mozilla/5.0 (windows nt 10.0; win64; x64) appleweb

mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like ge

一、导入requests库,以及lxml库中的etree

  1. from lxml import etree
  2. import requests

二、网页分析,获取urlheaders通过requests.get()请求网页内容

       代码段为:

  1. headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.55'}
  2. url = 'https://movie.douban.com/subject/27119724/'
  3. resp = requests.get(url,headers=headers)
  4. resp.encoding = 'utf-8'
  5. print(resp.text)

        URL为所爬取页面的网址

url = 'https://movie.douban.com/subject/27119724/'

        有时只使用requests.get(url)无法获取html信息,需要添加请求头 headers 来解决

        请求头 headers 可以从所爬取的页面

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/101734
推荐阅读
相关标签