当前位置:   article > 正文

爬取跳页后url不变的网页数据_在查看网页的过程中,发现跳转下一页的内容,url并未发生变化,是根据javascript动态

在查看网页的过程中,发现跳转下一页的内容,url并未发生变化,是根据javascript动态

目标网址:http://www.linked-brain-data.org/relateness/ListProtein2Gene?link=link3  

该网页上的内容为与脑疾病有关的蛋白质基因等数据,对于跳页后URL变化的网站,可以观察url的变化情况,从而用一个循环就可爬取不同页面的数据内容。

但目标网页跳页后url未变化,是用了js跳页,针对这种情况,我在查阅资料时了解到有两种方法可以解决(1)用自动化测试工具selenium来模仿鼠标点击下一页,但这种方法比较慢而且不适用于大数据(https://www.cnblogs.com/sanduzxcvbnm/p/10276617.html)(2)抓包分析 (可用Fiddler,也可直接F12看network) 本次用第二种方法,该HTML采用了GET方法(不是POST),找到和页数有关的内容pagenum,代码如下:

 

  1. import requests
  2. import pandas as pd
  3. import csv
  4. for i in range(1,5568): #跳页
  5. data={
  6. 'pagenum':i
  7. }
  8. url='http://www.linked-brain-data.org/relateness/ListProtein2Gene?link=link3'
  9. s = requests.session()
  10. d=s.get(url, params = data)
  11. tb = pd.read_html(d.text)[0] #
  12. tb.to_csv(r'Protein-Gene.csv', mode='a', encoding='utf_8_sig', header=0, index=0)
  13. print('抓取完成')

由于抓取的是该网页的表格数据,所以直接用了panda库读取表格的操作,这种更为简单。

另外对于一般网页数据的爬取,excel也可以做到。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/489065
推荐阅读
相关标签
  

闽ICP备14008679号