当前位置:   article > 正文

Kaggle数据集Telco-Customer-Churn.csv特征相关性分析(用LabelEncoder编码)_customer-churn-records

customer-churn-records

数据源:
https://www.kaggle.com/blastchar/telco-customer-churn

字段解释:
用户属性
0 customerID 客户编号

1 gender 性别

2 SeniorCitizen 是否是老年人

3 Partner 是否单身

4 Dependents 经济是否独立

5 tenure 已使用月份数

开通服务情况

6 PhoneService 电话业务

7 MultipleLines 多线业务

8 InternetService 网络服务业务

9 OnlineSecurity 网络安全业务

10 OnlineBackup 网络备份业务

11 DeviceProtection 设备保护业务

12 TechSupport 技术支持业务

13 StreamingTV 网络电视业务

14 StreamingMovies 网络电影业务

用户账户信息

15 Contract 合同方式

16 PaperlessBilling 电子账单

17 PaymentMethod 支付方式

18 MonthlyCharges 月费用

19 TotalCharges 总费用

研究目标

20 Churn 客户是否流失

相关性分析:

这里推荐用Spyder,因为Spyder的变量管理器中查看数据比较方便。当然用JupyterNotebook也很好。
初始设置:

import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style='darkgrid',font_scale=1.3)
plt.rcParams['font.family']='SimHei'
plt.rcParams['axes.unicode_minus']=False

import warnings
warnings.filterwarnings('ignore')

sns.set(style="whitegrid")
pd.set_option("display.max_columns", 36)
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

导入数据

df=pd.read_csv(r'E:\WA_Fn-UseC_-Telco-Customer-Churn.csv',header=0)

#查看数据大小
df.shape
#共有7043条记录,21个字段

#查看各字段属性
df.info()
#21个字段中有三个是数值型:SeniorCitizen、tenure 、MonthlyCharges
#其他均为字符型

#预览数据
df.head()
#这里从数据内容上看:TotalCharges表示总费用,应该是数值型,但实际却是字符型,所以后面应该做类型装换。

#查看缺失值
df.isnull(
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/742528
推荐阅读
相关标签
  

闽ICP备14008679号