当前位置:   article > 正文

使用Python爬取招聘数据、数据处理与可视化_基于python的招聘网站爬虫及可视化实现

基于python的招聘网站爬虫及可视化实现

程序说明


通过爬取“51job”获取招聘信息(以计算机软件为例),根据所获取数据分析领域相关工作职位需求,并通过可视化的方式展示分析行业就业情况(例如平均月薪、工作地点等)。

数据爬取


使用requests库请求网页内容,使用BeautifulSoup4解析网页。

观察网页结构

首先在爬取网页前,使用浏览器“开发者工具”,观察网页结构。

观察网页结构

例如,使用下面语句查找标签为"t3"的"div"元素,其中内容即为工作地点,通过构建循环即可得到该页所有工作地点项。

i.find(‘span’,class_=‘t3’).get_text()

通过观察页面链接,爬取所有页面

查看第2页链接为:

https://search.51job.com/list/000000,000000,0000,01,9,99,%2B,2,2.html

第3页链接为:

https://search.51job.com/list/000000,000000,0000,01,9,99,%2B,2,3.html

仅改变了页面数字,因此可以构造如下模式,并使用循环,爬取所有页面:

url_pattern = “https://search.51job.com/list/000000,000000,0000,01,9,99,%2B,2,{}.html”

for i in range(1,2001):

url = url_pattern.format(i)

爬虫程序完整代码

import time

import requests

from bs4 import BeautifulSoup

import os

import csv

#构建请求头

headers = {

‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36’

}

url_pattern = “https://search.51job.com/lis

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号