当前位置:   article > 正文

机器学习建模案例-人力资源分析_人力分析相关的机器学习

人力分析相关的机器学习

目的是什么:任务的目标是建立一个模型,该模型经过训练后能够预测参加某公司培训的人结束培训后寻找新工作的可能性。
数据在哪儿:该数据集包含参与培训的人的个人信息,包括性别、居住城市、目前在职的公司情况和学历等等特征。最重要的,包含最终是否寻找新工作,也就是拥有标签。
要达到的标准:这是一个典型的分类问题,我们将使用不同的分类器,让评价指标来告诉我们哪个是最合适的模型。

点此跳转Github查看数据集及代码

1. 处理数据,数据清洗

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os
os.chdir(r'……')
data_train=pd.read_csv('aug_train.csv')
print(data_train.shape)
data_train.head()
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

结果如下:
plt

# 这个数据集有很多NaN值,先统计各字段的缺失率
data_train.apply(lambda x: sum(x.isnull())/len(x),axis=0)
  • 1
  • 2

plt1特征 enrollee_id:候选人的唯一ID city:城市代码 city_ development _index:城市发展指数 gender:候选人性别 relevent_experience:候选人是否有相关经验 enrolled_university:已注册的大学课程类型 education_level:候选人的教育程度 major_discipline:候选人的专业 experience:候选人的工作年限 company_size:当前雇主公司中的雇员人数 company_type:当前雇主公司的类型 lastnewjob:当前雇主公司的工作年限 training_hours:培训时间时长

data_train=data_train.fillna('no')
data_train['company_size'] = data_train['company_size'].replace('10/49', '10-49')
  • 1
  • 2

2. 描述性统计&可视化

用tableau进行数据探索,见下图
plt6

import warnings
warnings.filterwarnings('ignore')
import matplotlib.pyplot as plt
import seaborn as sns
import
  • 1
  • 2
  • 3
  • 4
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/706567
推荐阅读
相关标签
  

闽ICP备14008679号