赞
踩
目录
1. 爬取技术栏里所有的职位信息
2. 爬取全国的招聘信息
1. 技术栏
2. 获取岗位 json
F12打开开发者工具,找到position.json,获得技术栏里所有的岗位信息
3. 获取全国城市的 json
找到site.json、city.json
site.json:直聘网站推荐的城市
city.json:全国所有的省、城市、区
ps: 根据个人需求选择来爬取直聘推荐的城市或全国所有的城市
4. element获取
本项目主要是用Selenium爬虫对目标网站进行爬取
核心代码如下:
爬取结果:
ps:数据量有点多,有点慢,爬了5w多就没有再爬了
有能力的可以使用分布式
在爬取过程中,一直刷新网页会弹出验证框,如何来解决这个问题?
ps:1.通过sleep或wait设置休眠时间
2.添加代理
3.登录账号,保存自己的cookie信息
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。