对比Dataframe与原生list的速度,Dataframe太慢了！！！_dataframe 加法太慢

作者：weixin_40725706 | 2024-04-04 04:04:15

踩

dataframe 加法太慢

写一个创建一个Dataframe的python代码示例。

import pandas as pd

# 创建一个Dataframe
data = {'Name': ['John', 'Bob', 'Mallory', 'Alice'],
        'Location': ['New York', 'Paris', 'Berlin', 'London'],
        'Age': [24, 13, 53, 33]
       }
df = pd.DataFrame(data)
print (df)

1
2
3
4
5
6
7
8
9
10

调试代码时，可以使用Python自带的调试工具，例如print语句来查看代码的运行状态。也可以使用第三方调试工具，比如pdb、ipdb等来实时跟踪代码的执行过程。

修改上面的代码，计算代码的执行时间（以毫秒为单位）

使用Python标准库中的timeit模块，可以方便的计算代码的执行时间，比如：

import pandas as pd
import timeit
start = timeit.default_timer()

# 创建一个Dataframe
data = {'Name': ['John', 'Bob', 'Mallory', 'Alice'],
        'Location': ['New York', 'Paris', 'Berlin', 'London'],
        'Age': [24, 13, 53, 33]
       }
df = pd.DataFrame(data)

print (df)
end = timeit.default_timer()

print('代码执行时间：', (end - start)*1000, 'ms')

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

解释一下 `timeit.default_timer()`

timeit.default_timer() 是 Python 中 timeit 模块的一个函数，它可以返回当前时间的时间戳，以便用来计算代码的执行时间。

修改上面的代码，让创建的Dataframe里面有100个数据，并保留代码执行时间计算

import pandas as pd
import timeit
start = timeit.default_timer()

# 创建一个Dataframe
data = {'Name': ['John', 'Bob', 'Mallory', 'Alice']*25,
        'Location': ['New York', 'Paris', 'Berlin', 'London']*25,
        'Age': [24, 13, 53, 33]*25
       }
df = pd.DataFrame(data)

print (df)
end = timeit.default_timer()

print('代码执行时间：', (end - start)*1000, 'ms')

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

继续修改上面的代码，再创建一个list，list里面有dict，list里的数据与之前创建的Dataframe里的数据是一样的，也是100个数据。

import pandas as pd
import timeit
start = timeit.default_timer()

# 创建一个Dataframe
data = {'Name': ['John', 'Bob', 'Mallory', 'Alice']*25,
        'Location': ['New York', 'Paris', 'Berlin', 'London']*25,
        'Age': [24, 13, 53, 33]*25
       }
df = pd.DataFrame(data)

# 创建一个list
list_data = [{'Name': 'John','Location': 'New York','Age': 24},
             {'Name': 'Bob','Location': 'Paris','Age': 13},
             {'Name': 'Mallory','Location': 'Berlin','Age': 53},
             {'Name': 'Alice','Location': 'London','Age': 33}] * 25

print (df)
end = timeit.default_timer()

print('代码执行时间：', (end - start)*1000, 'ms')

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

找到上面代码变量data中，Name = John 的数据，代码应该怎么写？

可以使用df.loc函数，来找到data中Name = John的数据，例如：

# 找到data中Name = John的数据
john_data = df.loc[df['Name'] == 'John']
print(john_data)

1
2
3
4

找到上面代码变量list_data中，Name = John 的数据，代码应该怎么写？

可以使用list comprehension循环，来找到list_data中Name = John的数据，例如：

# 找到list_data中Name = John的数据
john_data = [data for data in list_data if data['Name'] == 'John']
print(john_data)

1
2
3
4

把这两段代码片段加入到完整的代码中，并分别统计这两段小代码，对比其执行时间

import pandas as pd
import timeit
start = timeit.default_timer()

# 创建一个Dataframe
data = {'Name': ['John', 'Bob', 'Mallory', 'Alice']*25,
        'Location': ['New York', 'Paris', 'Berlin', 'London']*25,
        'Age': [24, 13, 53, 33]*25
       }
df = pd.DataFrame(data)

# 创建一个list
list_data = [{'Name': 'John','Location': 'New York','Age': 24},
             {'Name': 'Bob','Location': 'Paris','Age': 13},
             {'Name': 'Mallory','Location': 'Berlin','Age': 53},
             {'Name': 'Alice','Location': 'London','Age': 33}] * 25

# 找到data中Name = John的数据
start_data = timeit.default_timer()
john_data = df.loc[df['Name'] == 'John']
end_data = timeit.default_timer()

# 找到list_data中Name = John的数据
start_list = timeit.default_timer()
john_list = [data for data in list_data if data['Name'] == 'John']
end_list = timeit.default_timer()

print(john_data)
print(john_list)
end = timeit.default_timer()

print('df找到Name = John的数据：', (end_data - start_data)*1000, 'ms')
print('list找到Name = John的数据：', (end_list - start_list)*1000, 'ms')
print('代码总执行时间：', (end - start)*1000, 'ms')

输出
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36

df找到Name = John的数据： 5.7543089999999575 ms
list找到Name = John的数据： 0.009135999999965172 ms
代码总执行时间： 17.603628000000036 ms

！！！dataframe太慢了！！

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/weixin_40725706/article/detail/357265