Hadoop项目实战2---爬取某直聘网站_hadoop爬虫实现

作者：很楠不爱3 | 2024-06-12 23:14:05

踩

hadoop爬虫实现

1. 需求分析

1. 爬取技术栏里所有的职位信息

2. 爬取全国的招聘信息

1. 技术栏

2. 获取岗位 json

F12打开开发者工具，找到position.json，获得技术栏里所有的岗位信息

3. 获取全国城市的 json

找到site.json、city.json

site.json：直聘网站推荐的城市

city.json：全国所有的省、城市、区

ps：根据个人需求选择来爬取直聘推荐的城市或全国所有的城市

4. element获取

本项目主要是用Selenium爬虫对目标网站进行爬取

核心代码如下：

爬取结果：

ps：数据量有点多，有点慢，爬了5w多就没有再爬了

有能力的可以使用分布式

在爬取过程中，一直刷新网页会弹出验证框，如何来解决这个问题？

ps：1.通过sleep或wait设置休眠时间

2.添加代理

3.登录账号，保存自己的cookie信息

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/很楠不爱3/article/detail/710046