赞
踩
数据源:
https://www.kaggle.com/blastchar/telco-customer-churn
字段解释:
用户属性
0 customerID 客户编号
1 gender 性别
2 SeniorCitizen 是否是老年人
3 Partner 是否单身
4 Dependents 经济是否独立
5 tenure 已使用月份数
开通服务情况
6 PhoneService 电话业务
7 MultipleLines 多线业务
8 InternetService 网络服务业务
9 OnlineSecurity 网络安全业务
10 OnlineBackup 网络备份业务
11 DeviceProtection 设备保护业务
12 TechSupport 技术支持业务
13 StreamingTV 网络电视业务
14 StreamingMovies 网络电影业务
用户账户信息
15 Contract 合同方式
16 PaperlessBilling 电子账单
17 PaymentMethod 支付方式
18 MonthlyCharges 月费用
19 TotalCharges 总费用
研究目标
20 Churn 客户是否流失
这里推荐用Spyder,因为Spyder的变量管理器中查看数据比较方便。当然用JupyterNotebook也很好。
初始设置:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='darkgrid',font_scale=1.3)
plt.rcParams['font.family']='SimHei'
plt.rcParams['axes.unicode_minus']=False
import warnings
warnings.filterwarnings('ignore')
sns.set(style="whitegrid")
pd.set_option("display.max_columns", 36)
导入数据
df=pd.read_csv(r'E:\WA_Fn-UseC_-Telco-Customer-Churn.csv',header=0) #查看数据大小 df.shape #共有7043条记录,21个字段 #查看各字段属性 df.info() #21个字段中有三个是数值型:SeniorCitizen、tenure 、MonthlyCharges #其他均为字符型 #预览数据 df.head() #这里从数据内容上看:TotalCharges表示总费用,应该是数值型,但实际却是字符型,所以后面应该做类型装换。 #查看缺失值 df.isnull(
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。