赞
踩
事情是这样的…
需求:我有一个excel表,70多万行。我需要根据early_age、late_age两个字段的大小(419<=late_age<=early_age<=458)为条件,提取所有的数据,然后存入另一个excel,生成一个小的数据集。
刚开始写的代码如下:
data = pd.read_excel(r'D:\xxx.xlsx') # 764544行
end_data = pd.DataFrame(columns=data.columns.values)
indx = 0
for i in range(len(data)):
if i%10000==0:
print(i)
early_age = float(data['early_age'][i:i+1].values)
late_age = float(data['late_age'][i:i+1].values)
if pd.isnull(early_age) or pd.isnull(late_age):
continue
if (419 <= late_age) and (early_age <= 485):
end_data.loc[indx] = data[i:i+1].values.flatten().tolist()
indx += 1
痛苦的是,TMD从下午运行到了晚上,还是没跑完。。。。。。
终于,我又仔细地研究了代码,看究竟哪里跑的慢,
于是有了下面的代码:
data = pd.read_excel(r'D:\xxx.xlsx') # 764544行 def get_idx_lis(data): lis = [] for i in range(len(data)): if i%10000==0: print(i) early_age = float(data['early_age'][i:i+1].values) late_age = float(data['late_age'][i:i+1].values) if pd.isnull(early_age) or pd.isnull(late_age): continue if (419 <= late_age) and (early_age <= 485): lis.append(i) # !!!! return lis idx_lis = get_idx_lis(data) # 98152行 def get_data_rows(lis): data_rows = [] for i in range(len(lis)): if i%10000==0: print(i) data_rows.append(data[lis[i]:lis[i]+1].values.flatten().tolist()) return data_rows data_row = get_data_rows(idx_lis) end_data = pd.DataFrame(data=data_row, columns=data.columns.values) end_data.to_excel(r'D:\hhhh.xlsx')
上面两个代码的区别就在于:
代码1:
end_data.loc[indx] = data[i:i+1].values.flatten().tolist()
代码2:
lis.append(i)
end_data = pd.DataFrame(data=data_row, columns=data.columns.values)
结论:数据量大时 ,loc特别慢。。。
解决方法:
end_data= data[(419<=data['late_age']) & (data['early_age']<=485)] # 一行代码解决 哭了。。。。
拼接的代码:
# 1. 采用append方法合并两个dataframe
# 构造两个dataframe
df1 = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'))
# 合并 ignore_index设置为 True可以重新排列索引
df1.append(df2, ignore_index=True)
A B
0 1 2
1 3 4
2 5 6
3 7 8
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。