赞
踩
- data_list=[]
- for i in range(1,8):
- data=pd.read_csv('./data{}.csv'.format(i))
- data_list.append(data)
将csv放进list里后,7个csv是独立数据,len(data_list) #out=7, 此时我们要使用concat将数据融合在一起(注意,pandas concat函数需要传入的是列表,本例中我们的数据正好是列表)
data=pd.concat(data_list)
有了数据后可以对数据进行探索
- data.head() #查看数据前五行
-
- data.describe() #描述数据的基本情况,包括count,mean,min,max
-
- data.info() #介绍数据的信息,包括数据类型,有多少列多少行
-
- data.shape() #多少列多少行
-
- data.dtypes #查看数据类型
-
- data.columns: #以列表的形式显示数据表的列名
-
- data.loc[n]: #返回索引值为n的行
-
- data.loc[m][n]: #返回索引值为m行n列的数据
-
- data.loc[m:n]: #返回索引值为m到n的行
-
- data.columns.tolist():#将列名做成列表
-
- data.sort_values("str",inplace=True, ascending=False):
- #将str一列按照降序排列,且得到的数据替换原数据
-
- data=data[['col1','col2','col3']] #选取其中对几列进行分析

缺失值:
(data.isnull()).sum()
data.dropna(how='all', inplace=True)
df.isnull().sum(axis=0).sort_values(ascending=False)/float(len(df))# 检查缺失值比例
重复值:
(data.duplicated()).sum()
(data.duplicate(subset=['col1','col2'])).sum() #根据col1, col2来看有多少重复值
data.dropduplicates(subset=['col1','col2'],inplace=True)
将34464元/平 变成 34464数字型
在处理之前,先检查这一列,是否所有的数据都包含 元/平
data.colname.str.contains('元/平')
返回的结果难以统计,这时候可以取反
(~data.colname.str.contains('元/平')).sum()
data.colname.str.replace('元/平','').astype(np.float32)
比如,房价是大于0的,但是当我们查看最小值后,发现最小值为0,这里要进行筛选
data=data[data.colname>10000]
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。