当前位置:   article > 正文

pandas的切片loc方法特别慢、特别慢_pandas loc 的速度

pandas loc 的速度

今天在用pandas时,发现切片loc好慢!

事情是这样的…
需求:我有一个excel表,70多万行。我需要根据early_age、late_age两个字段的大小(419<=late_age<=early_age<=458)为条件,提取所有的数据,然后存入另一个excel,生成一个小的数据集。
刚开始写的代码如下:

data = pd.read_excel(r'D:\xxx.xlsx')  # 764544行
end_data = pd.DataFrame(columns=data.columns.values)
indx = 0
for i in range(len(data)):
    if i%10000==0:
        print(i)
    early_age = float(data['early_age'][i:i+1].values)
    late_age = float(data['late_age'][i:i+1].values)
    if pd.isnull(early_age) or pd.isnull(late_age):
        continue
    if (419 <= late_age) and (early_age <= 485):
        end_data.loc[indx] = data[i:i+1].values.flatten().tolist()
        indx += 1
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13

痛苦的是,TMD从下午运行到了晚上,还是没跑完。。。。。。
终于,我又仔细地研究了代码,看究竟哪里跑的慢,
于是有了下面的代码:

data = pd.read_excel(r'D:\xxx.xlsx')  # 764544行
def get_idx_lis(data):
    lis = []
    for i in range(len(data)):
        if i%10000==0:
            print(i)
        early_age = float(data['early_age'][i:i+1].values)
        late_age = float(data['late_age'][i:i+1].values)
        if pd.isnull(early_age) or pd.isnull(late_age):
            continue
        if (419 <= late_age) and (early_age <= 485):
            lis.append(i)	# !!!!
    return lis
idx_lis = get_idx_lis(data)   # 98152行
def get_data_rows(lis):
    data_rows = []
    for i in range(len(lis)):
        if i%10000==0:
            print(i)
        data_rows.append(data[lis[i]:lis[i]+1].values.flatten().tolist())
    return data_rows
data_row = get_data_rows(idx_lis)
end_data = pd.DataFrame(data=data_row, columns=data.columns.values)
end_data.to_excel(r'D:\hhhh.xlsx')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24

上面两个代码的区别就在于:
代码1:

end_data.loc[indx] = data[i:i+1].values.flatten().tolist()
  • 1

代码2:

lis.append(i)
end_data = pd.DataFrame(data=data_row, columns=data.columns.values)
  • 1
  • 2

结论:数据量大时 ,loc特别慢。。。
解决方法:

  1. 如果直接生成新的DataFrame,可以按照上面的方法,先将数据放入列表,然后创建DataFrame对象时直接赋值data。
  2. 如果要在已有的DataFrame1对象添加很多新的行,可以使用上述方法将新的数据放入一个DataFrame2,然后拼接DataFrame1和DataFrame2。
  3. 还有一个更简单的方法,用于条件筛选:
end_data= data[(419<=data['late_age']) & (data['early_age']<=485)]	# 一行代码解决   哭了。。。。
  • 1

拼接的代码:

# 1. 采用append方法合并两个dataframe
# 构造两个dataframe
df1 = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'))
# 合并  ignore_index设置为 True可以重新排列索引
df1.append(df2, ignore_index=True)
   A  B
0  1  2
1  3  4
2  5  6
3  7  8
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/210243
推荐阅读
相关标签
  

闽ICP备14008679号