赞
踩
本篇博客主要讲解数据统计及数据可视化的常用方法
# 导入数据科学工具包
import numpy as np
import pandas as pd
import seaborn
#读取数据
data=pd.read_csv('C:/Users/abc/Desktop/dataset/test.csv',encoding="ANSI")
#取消最大显示行数和列数限制
pd.options.display.max_columns=None
pd.options.display.max_rows=None
#读取数据表的前5行
data.head()
结果:
#查看数据尺寸
print(data.shape)
#查看数据数量
print(data.size)
#查看字段类型
print(data.dtypes)
#查看数据信息
print(data.info())
结果如下:
#数据描述:只统计数值型数据
data.describe()
data['字段名'].value_counts()
data["字段名"].value_counts(normalize=True)
right参数
是否包含右侧数据,默认包含右侧区间
bin参数
对数值型数据进行分箱处理
分箱:把一个大区间的数据分成多个小区间的数据,然后可以统计每个小区间的数据量、数据量的占比情况等指标
df_tenure_boxes, df_tenure_boxes_labels = pd.cut(data['tenure'], bins=[-111, 0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 8500], right=False, retbins=True, include_lowest=True)
数据量统计结果:
数据占比统计结果:
对数值型的数据进行描述:
df_tenure_boxes, df_tenure_boxes_labels = pd.cut(data['tenure'], bins=[-111, 0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200, 8500], right=False, retbins=True, include_lowest=True)
df_tenure_boxes.value_counts()
结果:
df_tenure_boxes_labels
结果:
df_tenure_boxes.value_counts().sort_index().values
结果:
#绘制柱状图
import matplotlib.pyplot as plt
#设置画布的大小
plt.figure(figsize=(20, 10))
#柱状图:bar
plt.bar(range(22), df_tenure_boxes.value_counts().sort_index().values, tick_label=df_tenure_boxes.value_counts(normalize=True).sort_index().index)
plt.show()
结果:
sns.distplot(data['tenure'])
plt.show()
结果:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。