赞
踩
爬虫的基本原理:就是利用代码模拟浏览器,爬取网页上的一些基本的内荣
爬虫的一般步骤:
python 爬虫的基础知识:
http协议:
user-agent;浏览器和用户的基本信息
cookie:用于验证码
host:域名
requestheader:请求头
- import urllib.request
- import urllib.parse
- import string
- def get_method_param():
- url="https://www.baidu.com/s?wd="
- #拼接
- name="美女"
- final_url=url+name
- print(final_url)
- #使用代码发送网络请求
- #将包含汉子的网址转移
-
- new_url=urllib.parse.quote(final_url,safe=string.printable)
- print(new_url)
-
- respose=urllib.request.urlopen(new_url)
- #这里会出现错误,不支持中文
- data=respose.read().decode()
- print(data)
- #保存到本地数据
- with open("baidu01.html","w",encoding='utf-8') as f:
- f.write(data)
-
-
- get_method_param()

Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。