数据预处理实例演示_csdn数据预处理实例

作者：喵喵爱编程 | 2024-06-26 16:41:59

踩

csdn数据预处理实例

1.数据读取-读取7个csv文件


data_list=[]
for i in range(1,8):
    data=pd.read_csv('./data{}.csv'.format(i))
    data_list.append(data)

2.数据合并与选取

将csv放进list里后，7个csv是独立数据，len(data_list) #out=7, 此时我们要使用concat将数据融合在一起（注意，pandas concat函数需要传入的是列表，本例中我们的数据正好是列表）

data=pd.concat(data_list)

3.探索数据

有了数据后可以对数据进行探索


data.head()      #查看数据前五行
 
data.describe()  #描述数据的基本情况，包括count，mean，min，max
 
data.info()      #介绍数据的信息，包括数据类型，有多少列多少行
 
data.shape()     #多少列多少行
 
data.dtypes      #查看数据类型
 
data.columns：   #以列表的形式显示数据表的列名
 
data.loc[n]：    #返回索引值为n的行
 
data.loc[m][n]： #返回索引值为m行n列的数据
 
data.loc[m:n]：  #返回索引值为m到n的行
 
data.columns.tolist()：#将列名做成列表
 
data.sort_values("str",inplace=True, ascending=False)：
#将str一列按照降序排列，且得到的数据替换原数据
 
data=data[['col1','col2','col3']]  #选取其中对几列进行分析

4.缺失值和重复值处理

缺失值：

(data.isnull()).sum()

data.dropna(how='all', inplace=True)

df.isnull().sum(axis=0).sort_values(ascending=False)/float(len(df))# 检查缺失值比例

重复值：

(data.duplicated()).sum()

(data.duplicate(subset=['col1','col2'])).sum() #根据col1, col2来看有多少重复值

data.dropduplicates(subset=['col1','col2'],inplace=True)

5.数据类型转换

将34464元/平变成 34464数字型

在处理之前，先检查这一列，是否所有的数据都包含元/平

data.colname.str.contains('元/平')

返回的结果难以统计，这时候可以取反

(～data.colname.str.contains('元/平')).sum()

data.colname.str.replace('元/平','').astype(np.float32)

6.异常值

比如，房价是大于0的，但是当我们查看最小值后，发现最小值为0，这里要进行筛选

data=data[data.colname>10000]

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/喵喵爱编程/article/detail/759923