当前位置:   article > 正文

数据预处理实例演示_csdn数据预处理实例

csdn数据预处理实例

1.数据读取-读取7个csv文件

  1. data_list=[]
  2. for i in range(1,8):
  3. data=pd.read_csv('./data{}.csv'.format(i))
  4. data_list.append(data)

2.数据合并与选取

将csv放进list里后,7个csv是独立数据,len(data_list) #out=7, 此时我们要使用concat将数据融合在一起(注意,pandas concat函数需要传入的是列表,本例中我们的数据正好是列表)

data=pd.concat(data_list)

3.探索数据

有了数据后可以对数据进行探索

  1. data.head() #查看数据前五行
  2. data.describe() #描述数据的基本情况,包括count,mean,min,max
  3. data.info() #介绍数据的信息,包括数据类型,有多少列多少行
  4. data.shape() #多少列多少行
  5. data.dtypes #查看数据类型
  6. data.columns: #以列表的形式显示数据表的列名
  7. data.loc[n]: #返回索引值为n的行
  8. data.loc[m][n]: #返回索引值为m行n列的数据
  9. data.loc[m:n]: #返回索引值为m到n的行
  10. data.columns.tolist():#将列名做成列表
  11. data.sort_values("str",inplace=True, ascending=False):
  12. #将str一列按照降序排列,且得到的数据替换原数据
  13. data=data[['col1','col2','col3']] #选取其中对几列进行分析

4.缺失值和重复值处理

缺失值:

(data.isnull()).sum()
data.dropna(how='all', inplace=True)
df.isnull().sum(axis=0).sort_values(ascending=False)/float(len(df))# 检查缺失值比例 

重复值:

(data.duplicated()).sum()
(data.duplicate(subset=['col1','col2'])).sum() #根据col1, col2来看有多少重复值
data.dropduplicates(subset=['col1','col2'],inplace=True)

5.数据类型转换

将34464元/平 变成 34464数字型

 在处理之前,先检查这一列,是否所有的数据都包含 元/平

data.colname.str.contains('元/平')

返回的结果难以统计,这时候可以取反

(~data.colname.str.contains('元/平')).sum()
data.colname.str.replace('元/平','').astype(np.float32)

6.异常值

比如,房价是大于0的,但是当我们查看最小值后,发现最小值为0,这里要进行筛选

data=data[data.colname>10000]

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/759923
推荐阅读
相关标签
  

闽ICP备14008679号