当前位置:   article > 正文

利用数据可视化技术来学习钻石鉴别_diamonds.csv 百度网盘

diamonds.csv 百度网盘

数据背景

A data frame with 53940 rows and 10 variables:
这是一个10列53940行的数据集。下面是它每个属性的介绍:

price carat cut color clarity x y z
价格 重量 切割质量 色彩 净度

价格是以美元计价;
重量的单位是克拉;
切割质量分为:Fair, Good, Very Good, Premium, Ideal;
色彩分为:J (worst) to D (best);
净度分为I1 (worst), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (best);
长,宽,深的单位是mm

初(粗)看数据

加载数据到dataframe

import pandas as pd
import seaborn as sns
sns.set(style="whitegrid", palette="muted")
diamonds = pd.read_csv("/Users/sqian/Documents/GitHub/seaborn-data-master/diamonds.csv")
  • 1
  • 2
  • 3
  • 4
diamonds.describe()
  • 1

在这里插入图片描述
这里可以看出一些属性的取值范围和整个数据集的数量。

diamonds.head()
  • 1

在这里插入图片描述
可以看到有三个属性是非数字型的,后面可以对其进行处理。

diamonds.columns
  • 1

Index([‘carat’, ‘cut’, ‘color’, ‘clarity’, ‘depth’, ‘table’, ‘price’, ‘x’, ‘y’, ‘z’],dtype=‘object’)
这个地方打印一下是为了后面选列时,复制列名用的。

diamonds.isnull().sum()
  • 1

在这里插入图片描述
看一下有没有空白值,没有发现!

数据简单清理

  1. 先把非数字型的属性替换成非数字的,当然也可以不替换,我这里是为了装逼,哈哈哈!
import collections
# 统计列表元素出现次数
collections.Counter(diamonds['color'])
collections.Counter(diamonds['clarity'])
collections.Counter(diamonds['cut'])
  • 1
  • 2
  • 3
  • 4
  • 5

在这里插入图片描述
这里通过查看这些列里频繁出现的值来找出需要替换的值。

diamonds['cut_no']=diamonds['cut']
diamonds['clarity_no']=diamonds['clarity']
diamonds['color_no']=diamonds['color']
# 准备好替换map
cut_rp_map={
   'Fair':1,'Good':2,'Very Good':3,'Premium':4,'Ideal':5}
co_rp_map={
   'J':1,'I':2,'H':3,'G':4,'F':
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/453702
推荐阅读
相关标签
  

闽ICP备14008679号