赞
踩
5.数据分析的流程
1 读入数据
1.1 了解数据
2 了解我们的特征
3 探索特征和响应数据之间的比例关系
4 数据清洗
4.1 删除不需要的列
4.2 拆分训练集和测试集
4.3 空值统计
4.4 空值填充
4.5 数据编码
4.6 测试集相同编码方式
4.7 重复值检查和删除
5 建模
5.1 调参
5.2 网格搜索
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.read_csv("保险行业决策树案例\data\ma_resp_data_temp.csv")
df.head()
df.shape
df.info()
在我们正式建模型之前,我们需要对我们的数据进行描述性统计,这样我们就能知道整个数据的大致分布是什么样的,做到心里有数,然后能够数据大致的全貌有一定的了解。
def value_counts(column):
"""函数功能: 传入列名, 返回该列的计数统计
绘制柱状图"""
df[column].value_counts().plot(kind='bar');
return df[column].value_counts()
#查看购买保险人数
value_counts("resp_flag")
#查看性别分布
value_counts("GEND")
#查看是否大学毕业分布
value_counts("COLLEGE")
1.了解每一个学历下购买的人数占比情况
d = df.groupby("c210mys")["resp_flag"].mean()
plt.figure(dpi = 100)
d.plot(kind = "bar")
plt.xlabel("学历")
plt.ylabel("每一学历购买保险的占比")
从图中可以看到学历等级的高低与购买保险并无太多相关性
2.了解社会经济评分购买保险的人数占比情况
plt.figure(dpi =500)
df.groupby("c210kses")
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。