赞
踩
目的是什么:任务的目标是建立一个模型,该模型经过训练后能够预测参加某公司培训的人结束培训后寻找新工作的可能性。
数据在哪儿:该数据集包含参与培训的人的个人信息,包括性别、居住城市、目前在职的公司情况和学历等等特征。最重要的,包含最终是否寻找新工作,也就是拥有标签。
要达到的标准:这是一个典型的分类问题,我们将使用不同的分类器,让评价指标来告诉我们哪个是最合适的模型。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import os
os.chdir(r'……')
data_train=pd.read_csv('aug_train.csv')
print(data_train.shape)
data_train.head()
结果如下:
# 这个数据集有很多NaN值,先统计各字段的缺失率
data_train.apply(lambda x: sum(x.isnull())/len(x),axis=0)
特征 enrollee_id:候选人的唯一ID city:城市代码 city_ development _index:城市发展指数 gender:候选人性别 relevent_experience:候选人是否有相关经验 enrolled_university:已注册的大学课程类型 education_level:候选人的教育程度 major_discipline:候选人的专业 experience:候选人的工作年限 company_size:当前雇主公司中的雇员人数 company_type:当前雇主公司的类型 lastnewjob:当前雇主公司的工作年限 training_hours:培训时间时长
data_train=data_train.fillna('no')
data_train['company_size'] = data_train['company_size'].replace('10/49', '10-49')
用tableau进行数据探索,见下图
import warnings
warnings.filterwarnings('ignore')
import matplotlib.pyplot as plt
import seaborn as sns
import
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。