当前位置:   article > 正文

python爬虫day1

python爬虫day1

爬虫的基本原理:就是利用代码模拟浏览器,爬取网页上的一些基本的内荣

爬虫的一般步骤:

  1. 找到url
  2. 利用python代码请求数据
  3. 解析数据,重复2,3的一些步骤
  4. 数据的持久化、数据的持久化,一般使用表格或者数据库

 

python 爬虫的基础知识:

http协议:

user-agent;浏览器和用户的基本信息

cookie:用于验证码

host:域名

requestheader:请求头

  1. import urllib.request
  2. import urllib.parse
  3. import string
  4. def get_method_param():
  5. url="https://www.baidu.com/s?wd="
  6. #拼接
  7. name="美女"
  8. final_url=url+name
  9. print(final_url)
  10. #使用代码发送网络请求
  11. #将包含汉子的网址转移
  12. new_url=urllib.parse.quote(final_url,safe=string.printable)
  13. print(new_url)
  14. respose=urllib.request.urlopen(new_url)
  15. #这里会出现错误,不支持中文
  16. data=respose.read().decode()
  17. print(data)
  18. #保存到本地数据
  19. with open("baidu01.html","w",encoding='utf-8') as f:
  20. f.write(data)
  21. get_method_param()

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/827379
推荐阅读
相关标签
  

闽ICP备14008679号