赞
踩
1、请求库
request.get:针对get请求方式的网页获取方法
request.post:针对post请求方式的网页获取方法
request.put:针对put请求方式的网页获取方法
2、获取URL
按F12,打开开发者模式,在名称里选择需要的数据(比较预览里的数据和网页上的数据),
找到数据后,在headers里寻找URL,request url便是需要寻找的URL
3、构造请求头
在headers里找到请求头所需的数据
headers={
'Accept':' */*',
'Accept-Encoding':' gzip, deflate',
'Accept-Language':' zh-CN,zh;q=0.9',
'Connection':' keep-alive',
'User-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
'referer':'http://data.eastmoney.com/zjlx/detail.html'
}
其中页码变化与URL变化有关,若需更改页码,只需改URL里page index=?
若想获取全部页码的数据:添加一个for循环for index in range(1,pn);将URL里pn=1改为pn={},并在最后加上.format(pn)
此时的数据类型是json,用时需要将jQuery112303987292499813875_1634567092516({rc: 0, rt: 6, svr: 182993898, lt: 1, full: 1, data: {total: 4620,…}})进行转换,即去掉jQuery112303987292499813875_1634567092516
访问网页时需要添加user agent,是用户代理(身份证),即伪装一下再进行访问;若直接通过URL访问,这是通过代码访问,会出错
在请求时带上请求头,还需带上防盗链referer。目的:确定来路
4、抓取数据
利用BeautifulSoup4库,BeautifulSoup4是Python的一个库,最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理,全部页面转变为字典或者数组,可以简化处理过程。使用BeautifulSoup解析一段代码,能够得到一个 BeautifulSoup 的对象,并能按照标准的缩进格式的结构输出
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。