当前位置:   article > 正文

爬虫项目实战2.1 Selenium爬取Boss招聘信息

selenium爬取boss

完成:

1.爬取信息

2.基于爬取结果筛选符合条件的信息

   岗位名称、薪资、岗位要求、地区、公司名称、公司规模、细节链接

3.筛选base杭州的岗位保存到csv文件中

  1. """
  2. [课 题]: Python爬取boss直聘
  3. [开发环境]:
  4. python 3.8
  5. pycharm 专业版
  6. selenium3.141.0
  7. 代码编写思路
  8. 1. 打开一个浏览器
  9. 2. 打开一个网址
  10. 3. 获取数据
  11. 4. 保存数据
  12. """
  13. from selenium import webdriver # 操作浏览器的类
  14. import csv
  15. f = open('boss-杭州.csv', mode='a', encoding='utf-8-sig', newline='')
  16. csv_writer = csv.writer(f)
  17. csv_writer.writerow(['岗位名称', '薪资待遇', '岗位详情', '岗位地区', '公司福利', '公司名称', '公司规模', '岗位需要技能', '岗位详情链接'])
  18. # 1. 打开一个浏览器
  19. driver = webdriver.Edge()#Edge浏览器
  20. # driver = webdriver.Chrome()#谷歌浏览器
  21. for page in range(1, 11):
  22. # 2. 打开一个网址
  23. driver.get(r'https://www.zhipin.com/web/geek/job?query=数据分析&city=100010000&page='+str(page))
  24. # 等待10
  25. driver.implicitly_wait(10)
  26. # 3. 获取数据 定位数据
  27. # 获取到所有的商品信息,selector定位关键信息所在区域:.job-card-wrapper,复制选项可以定位到具体标签
  28. lis = driver.find_elements_by_css_selector('.job-card-wrapper')
  29. # 二次提取岗位具体信息,将位于杭州的岗位保存在csv中
  30. for li in lis:
  31. job_name = li.find_element_by_css_selector('.job-name').text
  32. salary = li.find_element_by_css_selector('.salary').text
  33. tag_list = li.find_element_by_css_selector('.tag-list').text
  34. job_area = li.find_element_by_css_selector('.job-area').text
  35. info_desc = li.find_element_by_css_selector('.info-desc').text
  36. company_name = li.find_element_by_css_selector('.company-name').text
  37. company_tag_list = li.find_element_by_css_selector('.company-tag-list').text
  38. job_need = li.find_element_by_css_selector('.job-card-footer.clearfix ul').text.split('|')
  39. job_url = li.find_element_by_css_selector('.job-card-body.clearfix a').get_attribute('href')
  40. # print(job_name, job_area, salary, tag_list, company_name, company_tag_list, info_desc)
  41. # 4. 保存数据
  42. if '杭州' in job_area:
  43. csv_writer.writerow([job_name, salary, tag_list, job_area, info_desc, company_name, company_tag_list, job_need, job_url])

But容易出现网络不稳定造成的无法定位元素所在位置的情况,小范围爬取可以

4.基于csv分析后续

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/我家自动化/article/detail/517001
推荐阅读
相关标签
  

闽ICP备14008679号