赞
踩
A data frame with 53940 rows and 10 variables:
这是一个10列53940行的数据集。下面是它每个属性的介绍:
price | carat | cut | color | clarity | x | y | z |
---|---|---|---|---|---|---|---|
价格 | 重量 | 切割质量 | 色彩 | 净度 | 长 | 宽 | 深 |
价格是以美元计价;
重量的单位是克拉;
切割质量分为:Fair, Good, Very Good, Premium, Ideal;
色彩分为:J (worst) to D (best);
净度分为I1 (worst), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (best);
长,宽,深的单位是mm
加载数据到dataframe
import pandas as pd
import seaborn as sns
sns.set(style="whitegrid", palette="muted")
diamonds = pd.read_csv("/Users/sqian/Documents/GitHub/seaborn-data-master/diamonds.csv")
diamonds.describe()
这里可以看出一些属性的取值范围和整个数据集的数量。
diamonds.head()
可以看到有三个属性是非数字型的,后面可以对其进行处理。
diamonds.columns
Index([‘carat’, ‘cut’, ‘color’, ‘clarity’, ‘depth’, ‘table’, ‘price’, ‘x’, ‘y’, ‘z’],dtype=‘object’)
这个地方打印一下是为了后面选列时,复制列名用的。
diamonds.isnull().sum()
看一下有没有空白值,没有发现!
import collections
# 统计列表元素出现次数
collections.Counter(diamonds['color'])
collections.Counter(diamonds['clarity'])
collections.Counter(diamonds['cut'])
这里通过查看这些列里频繁出现的值来找出需要替换的值。
diamonds['cut_no']=diamonds['cut']
diamonds['clarity_no']=diamonds['clarity']
diamonds['color_no']=diamonds['color']
# 准备好替换map
cut_rp_map={
'Fair':1,'Good':2,'Very Good':3,'Premium':4,'Ideal':5}
co_rp_map={
'J':1,'I':2,'H':3,'G':4,'F':
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。