赞
踩
数据清洗占数据分析工作量的大头。在拉勾网搜索深圳市的“数据分析”职位,结果得到369个职位。查看职位名称时,发现有4个实习岗位。由于我们研究的是全职岗位,所以先将实习岗位剔除。由于工作经验和工资都是字符串形式的区间,我们先用正则表达式提取数值,输出列表形式。工作经验取均值,工资取区间的四分位数值,比较接近现实。
df.drop(df[df[‘职位名称’].str.contains(‘实习’)].index, inplace=True)
pattern = ‘\d+’
df[‘工作年限’] = df[‘工作经验’].str.findall(pattern)
avg_work_year = []
for i in df[‘工作年限’]:
if len(i) == 0:
avg_work_year.append(0)
elif len(i) == 1:
avg_work_year.append(int(‘’.join(i)))
else:
num_list = [int(j) for j in i]
avg_year = sum(num_list)/2
avg_work_year.append(avg_year)
df[‘经验’] = avg_work_year
df[‘salary’] = df[‘工资’].str.findall(pattern)
avg_salary = []
for k in df[‘salary’]:
int_list = [int(n) for n in k]
avg_wage = int_list[0]+(int_list[1]-int_list[0])/4
avg_salary.append(avg_wage)
df[‘月工资’] = avg_salary
df.to_csv(‘draft.csv’, index = False)
我们将职位福利这一列的数据汇总,生成一个字符串,按照词频生成词云实现python可视化。以下是原图和词云的对比图,可见五险一金在职位福利里出现的频率最高,平台、福利、发展空间、弹性工作次之。
可知,数据分析师的均值在14.6K,中位数在12.5K,算是较有前途的职业。数据分析散布在各个行业,但在高级层面上涉及到数据挖掘和机器学习,在IT业有长足的发展。
我们再来看工资的分布,这对于求职来讲是重要的参考:
工资在10-15K的职位最多,在15-20K的职位其次。个人愚见,10-15K的职位以建模为主,20K以上的职位以数据挖掘、大数据架构为主。
我们再来看职位在各区的分布:
数据分析职位有62.9%在南山区,有25.8%在福田区,剩下少数分布在龙岗区、罗湖区、宝安区、龙华新区。我们以小窥大,可知南山区和福田区是深圳市科技业的中心。
我们希望获得工资与工作经验、学历的关系,由于学历分三类,需设置3个虚拟变量:大专、本科、硕士。多元回归结果如下:
在0.05的显著性水平下,F值为82.53,说明回归关系是显著的。t检验和对应的P值都小于0.05表明,工作经验和3种学历在统计上都是显著的。另外,R-squared的值为0.41,说明工作经验和学历仅仅解释了工资变异性的41%。这点不难理解,即使职位都叫数据分析师,实际的工作内容差异比较大,有的只是用Excel做基本分析,有的用Python、R做数据挖掘。另外,各个公司的规模和它愿意开出的工资也不尽相同。而工作内容的差异和公司的大方程度是很难单凭招聘网页上的宣传而获得实际数据,导致了模型的拟合优度不是很好这一现实。
由于回归模型总体是显著的,我们可以将自变量的值代入回归方程,获得各个学历的工资的期望值E。对于数据分析职位,以1年工作经验为例,大专学历的期望工资是7.8K,本科学历的期望工资是10.8K,硕士学历的期望工资是17.6K。这证实了“知识改变命运”这一说法。
由于每次运行爬虫耗时约30分钟,而运行数据分析耗时几秒钟,我们将两部分的工作单独运行,以节省数据分析的时间。
7.1 爬虫部分的代码
import requests
import math
import pandas as pd
import time
‘’’
python学习交流群:1136201545更多学习资料可以加群获取
‘’’
def get_json(url,num):
‘’‘’‘从网页获取JSON,使用POST请求,加上头部信息’‘’
my_headers = {
‘User-Agent’:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36’,
‘Host’:‘www.lagou.com’,
‘Referer’:‘https://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?labelWords=&fromSearch=true&suginput=’,
‘X-Anit-Forge-Code’:‘0’,
‘X-Anit-Forge-Token’: ‘None’,
‘X-Requested-With’:‘XMLHttpRequest’
}
my_data = {
‘first’: ‘true’,
‘pn’:num,
‘kd’:‘数据分析’}
res = requests.post(url, headers = my_headers, data = my_data)
res.raise_for_status()
res.encoding = ‘utf-8’
page = res.json()
return page
def get_page_num(count):
‘’‘’‘计算要抓取的页数’‘’
res = math.ceil(count/15)
if res > 30:
return 30
else:
return res
def get_page_info(jobs_list):
‘’‘’‘对一个网页的职位信息进行解析,返回列表’‘’
page_info_list = []
for i in jobs_list:
job_info = []
job_info.append(i[‘companyFullName’])
job_info.append(i[‘companyShortName’])
job_info.append(i[‘companySize’])
job_info.append(i[‘financeStage’])
job_info.append(i[‘district’])
job_info.append(i[‘positionName’])
job_info.append(i[‘workYear’])
job_info.append(i[‘education’])
job_info.append(i[‘salary’])
job_info.append(i[‘positionAdvantage’])
page_info_list.append(job_info)
return page_info_list
def main():
url = ‘https://www.lagou.com/jobs/positionAjax.json?city=%E6%B7%B1%E5%9C%B3&needAddtionalResult=false’
page_1 = get_json(url,1)
total_count = page_1[‘content’][‘positionResult’][‘totalCount’]
num = get_page_num(total_count)
total_info = []
time.sleep(20)
print(‘职位总数:{},页数:{}’.format(total_count,num))
for n in range(1,num+1):
page = get_json(url,n)
jobs_list = page[‘content’][‘positionResult’][‘result’]
page_info = get_page_info(jobs_list)
total_info += page_info
print(‘已经抓取第{}页, 职位总数:{}’.format(n, len(total_info)))
time.sleep(30)
#将总数据转化为data frame再输出
df = pd.DataFrame(data = total_info,columns = [‘公司全名’,‘公司简称’,‘公司规模’,‘融资阶段’,‘区域’,‘职位名称’,‘工作经验’,‘学历要求’,‘工资’,‘职位福利’])
df.to_csv(‘lagou_jobs.csv’,index = False)
print(‘已保存为csv文件.’)
if name== “main”:
main()
7.2 数据分析部分的代码
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm
from wordcloud import WordCloud
from scipy.misc import imread
import jieba
from pylab import mpl
‘’’
python学习交流群:1136201545更多学习资料可以加群获取
‘’’
mpl.rcParams[‘font.sans-serif’] = [‘SimHei’] # 指定默认字体
mpl.rcParams[‘axes.unicode_minus’] = False # 解决保存图像是负号’-'显示为方块的问题
df = pd.read_csv(‘lagou_jobs.csv’, encoding = ‘gbk’)
df.drop(df[df[‘职位名称’].str.contains(‘实习’)].index, inplace=True)
pattern = ‘\d+’
df[‘工作年限’] = df[‘工作经验’].str.findall(pattern)
avg_work_year = []
for i in df[‘工作年限’]:
if len(i) == 0:
avg_work_year.append(0)
elif len(i) == 1:
avg_work_year.append(int(‘’.join(i)))
else:
num_list = [int(j) for j in i]
avg_year = sum(num_list)/2
avg_work_year.append(avg_year)
df[‘经验’] = avg_work_year
df[‘salary’] = df[‘工资’].str.findall(pattern)
avg_salary = []
for k in df[‘salary’]:
int_list = [int(n) for n in k]
avg_wage = int_list[0]+(int_list[1]-int_list[0])/4
avg_salary.append(avg_wage)
df[‘月工资’] = avg_salary
df.to_csv(‘draft.csv’, index = False)
print(‘数据分析师工资描述:\n{}’.format(df[‘月工资’].describe()))
plt.hist(df[‘月工资’],bins = 12)
plt.xlabel(‘工资 (千元)’)
plt.ylabel(‘频数’)
plt.title(“工资直方图”)
plt.savefig(‘histogram.jpg’)
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数Python工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Python开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注:Python)
-6zX8hE7v-1713680985458)]
[外链图片转存中…(img-5xVOVZ5V-1713680985459)]
[外链图片转存中…(img-2eIgQ78J-1713680985460)]
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上前端开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以扫码获取!!!(备注:Python)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。