当前位置:   article > 正文

初级爬虫的总结一

初级爬虫的总结一

初级爬虫的总结一之百度网页爬虫

我遇到的问题:
1、没有找对网页sugrec,导致connect-type没有找对,以及一些小问题
2、url拼接时候出现乱码


一、寻找正确的sugrec

1、打开百度网址,看看进行搜索时候,该网页标签是否在进行变化
在这里插入图片描述
2、右键点开查找
在这里插入图片描述
3、点击网络,再点击下面的fetch/XHR在这里插入图片描述在这里插入图片描述
4、点击百度一下,请注意出现的这个sugrec,之后会用到的
在这里插入图片描述
5、输入你要查找的词汇,在网址栏中喜欢后面的删除,回车一下,将会得到,我们需要的sugrec
在这里插入图片描述
6、得到要用的sugrec
在这里插入图片描述

二、url拼接出问题,解决办法

当 response = requests.get(url=url,params=param,headers=headers) 中无法出现正确的地址时
采用:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import requests
rom urllib.parse import urljoin, quote, urlencode

if __name__ =="__main__":
    headers={
        "User-Agent":"填你自己的"
    }
    base_url = "https://www.baidu.com/"
    # 拼接URL
    url = urljoin(base_url, 's?wd=')
   #检查URL是否拼接正确
    print(url)
    # 动态查询
    kw = input('enter a word:')
    url=url+kw
    # response = requests.get(url=url,params=param,headers=headers)
    response = requests.get(url=url, headers=headers)
    #print(response.status_code) #检查response是否查询成功 200(成果)
    page_text = response.text
    filename =kw+'.html'
    with open(filename,'w',encoding='utf-8') as fp:
        fp.write(page_text)
    print(filename,'over!')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25

一点点的拓展关于json:
不知道json代码哪里出问题了,可以采用以下的代码:

    try:
        dic_obj = response.json()
        except json.JSONDecodeError:
        print('JSON解析错误,响应内容可能不是有效的JSON格式')
       except requests.exceptions.RequestException as e:
        print(f'请求发生错误:{e}')
    else:
        print(dic_obj)
        fileName=kw+'.json'
        fp = open('fileName','w',encoding='utf-8')
        json.dump(dic_obj,fp=fp,ensure_ascii=False)
        print('over!')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/659233
推荐阅读
相关标签
  

闽ICP备14008679号