赞
踩
导库,读取数据
import numpy as np
import pandas as pd
df = pd.read_csv('../data/MotorcycleData.csv',encoding='gbk',na_values='Na')
自定义函数,把价格中的美元符号、逗号、里程数逗号去掉;
def f(x):
if '$' in str(x):
x = str(x).strip('$')
x = str(x).replace(',','')
else:
x = str(x).replace(',','')
return float(x)
#价格处理
df['Price'] = df['Price'].apply(f)
#里程处理
df['Mileage'] = df['Mileage'].apply(f)
查看是否有重复数据
>>> print('数据是否存在重复观测:\n',any(df.duplicated()))
数据是否存在重复观测:
True
查看重复数据
df[df.duplicated()]
计算重复数量
np.sum(df.duplicated())
删除所有变量都重复的行,注意:这里没有inplace=True
df.drop_duplicates()
按照两个变量重复来去重
df.drop_duplicates(subset=['Condition','Condition_Desc','Price','Location'],inplace=True)
查看缺失比率
df.apply(lambda x : sum(x.isnull(
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。