赞
踩
首先介绍一下我所理解的“真假网页”,“真网页”就是我们可以直接通过网址(URL),获取这个“真网页”上的任何内容。“假网页”就是我们通过URL爬取网页信息时得到的结果为空,这一点相信大家在写爬虫程序时会经常遇到。比如我们想获取一个网页的信息,利用requests的get方法对URL进行请求,再用BeautifulSoup进行解析后我们发现得到的结果为空!这样我们就可能使用了一个“假网页”,
比如我们想获取电子学报的目录的所有信息,如下图所示:
通常我们的写法是这样的:
import requests
from bs4 import BeautifulSoup
res = requests.get("http://navi.cnki.net/KNavi/JournalDetail?pcode=CJFD&pykm=DZXU")
soup = BeautifulSoup(res.text,'html.parser')
print(soup)
但是我们打印soup后发现其中并没有任何的目录信息!也就是说,这个网址是一个“假网址”,我们想要的内容虽然显示在了这个网址上,但我们却爬取不到关于他的任何信息!那么只有一种可能,就是它的信息在别的网址上,那么我们会考率2种情况:1.异步加载 2.异步传输 (这两个有点像,大家别弄混了!)
1.异步加载是动态爬取得典型情况,也就是 不是 直接呈现给我们的,而是通过加载后才呈现给我们的,这部分通常在JavaScript中,我们依次检查JavaScript,就会找到真正的网址!如下图中蓝色框框可见
2.异步传输:通常数据传输有两种模式,同步传输和异步传输。同步传输是将一个数据块直接发送,这样呈现给我们的就是通常的静态网页,那么和为异步传输?异步传输是将数据分为一块一块的,不直接呈现一个完整的数据,那么这部分数据在XHR下,如下如所示:
我们依次检查XHR中每一项,如下如所示:
我们可以看到有4个XHR,依次检查,我们点击每一项,在右侧相应中查看自己想要的信息,我们可以在第3个XHR中发现自己想要的信息,如下图所示:
那么此时我们就发现了自己想要的信息,那么接下来我们点击消息头,在消息头中我们可以看到请求网址,那么这个网址就是我们苦苦寻找的”真网址“,接着通过以下代码就可以获取自己想要的信息了!
from bs4 import BeautifulSoup
import requests
url='http://navi.cnki.net/knavi/JournalDetail/GetArticleList?year=2018&issue=04&pykm=DZXU&pageIdx=0&pcode=CJFD'
res = requests.get(url)
soup = BeautifulSoup(res.text,'html.parser')
print(soup)
那么“真假网址”的问题就解决了,欢迎大家一起讨论!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。