使用Python爬取招聘数据、数据处理与可视化_基于python的招聘网站爬虫及可视化实现

作者：秋刀鱼在做梦 | 2024-08-07 00:00:11

踩

基于python的招聘网站爬虫及可视化实现

程序说明

通过爬取“51job”获取招聘信息（以计算机软件为例），根据所获取数据分析领域相关工作职位需求，并通过可视化的方式展示分析行业就业情况（例如平均月薪、工作地点等）。

使用requests库请求网页内容，使用BeautifulSoup4解析网页。

首先在爬取网页前，使用浏览器“开发者工具”，观察网页结构。

观察网页结构

例如，使用下面语句查找标签为"t3"的"div"元素，其中内容即为工作地点，通过构建循环即可得到该页所有工作地点项。

i.find(‘span’,class_=‘t3’).get_text()

查看第2页链接为：

https://search.51job.com/list/000000,000000,0000,01,9,99,%2B,2,2.html

第3页链接为：

https://search.51job.com/list/000000,000000,0000,01,9,99,%2B,2,3.html

仅改变了页面数字，因此可以构造如下模式，并使用循环，爬取所有页面：

url_pattern = “https://search.51job.com/list/000000,000000,0000,01,9,99,%2B,2,{}.html”

for i in range(1,2001):

url = url_pattern.format(i)

import time

import requests

from bs4 import BeautifulSoup

import os

import csv

#构建请求头

headers = {

‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36’

}

url_pattern = “https://search.51job.com/lis

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】