赞
踩
通过爬取“51job”获取招聘信息(以计算机软件为例),根据所获取数据分析领域相关工作职位需求,并通过可视化的方式展示分析行业就业情况(例如平均月薪、工作地点等)。
使用requests库请求网页内容,使用BeautifulSoup4解析网页。
首先在爬取网页前,使用浏览器“开发者工具”,观察网页结构。
例如,使用下面语句查找标签为"t3"的"div"元素,其中内容即为工作地点,通过构建循环即可得到该页所有工作地点项。
i.find(‘span’,class_=‘t3’).get_text()
查看第2页链接为:
https://search.51job.com/list/000000,000000,0000,01,9,99,%2B,2,2.html
第3页链接为:
https://search.51job.com/list/000000,000000,0000,01,9,99,%2B,2,3.html
仅改变了页面数字,因此可以构造如下模式,并使用循环,爬取所有页面:
url_pattern = “https://search.51job.com/list/000000,000000,0000,01,9,99,%2B,2,{}.html”
for i in range(1,2001):
url = url_pattern.format(i)
import time
import requests
from bs4 import BeautifulSoup
import os
import csv
#构建请求头
headers = {
‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36’
}
url_pattern = “https://search.51job.com/lis
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。