【Python】36氪(36kr)数据抓取 scrapy_36kr pagecallback

作者：从前慢现在也慢 | 2024-08-18 18:35:32

踩

36kr pagecallback

1. 36氪(36kr)数据----写在前面

今天抓取一个新闻媒体，36kr的文章内容，也是为后面的数据分析做相应的准备

36kr 让一部分人先看到未来，而你今天要做的事情确实要抓取它的过去。

网址 https://36kr.com/

2. 36氪(36kr)数据----数据分析

36kr的页面是一个瀑布流的效果，当你不断的下拉页面的时候，数据从后台追加过来，基于此，基本可以判断它是ajax异步的数据，只需要打开开发者工具，就能快速的定位到想要的数据，我们尝试一下！

捕获链接如下

https://36kr.com/api/search-column/mainsite?per_page=20&page=1&_=1543840108547
https://36kr.com/api/search-column/mainsite?per_page=20&page=2&_=1543840108547
https://36kr.com/api/search-column/mainsite?per_page=20&page=3&_=1543840108547
https://36kr.com/api/search-column/mainsite?per_page=20&page=4&_=1543840108547

1
2
3
4
5

在多次尝试之后，发现per_page最大可以扩展到300，但是当大于100的数据，返回的数据并不是很理想，所以，我们拟定为100即可，page就是页码，这个不断循环叠加即可。

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：【wpsshop博客】