pandas之pd.read_parquet()和pd.to_parquet()介绍

作者：Monodyee | 2024-05-01 00:14:47

踩

pd.read_parquet

为何要用 parquet

小伙伴可能要问了，这是个什么玩意？pd.read_csv不行嘛？结果都是返回DataFrame。确实结果是一样的，可是加载数据的耗时相差很多。

1. pd.to_parquet() 存

sales.to_parquet('../notebook_data/downcast_sales.parquet')  # 存了起来
1

2. pd.read_parquet() 取

pandas.read_parquet(path, engine='auto', columns=None, use_nullable_dtypes=False, **kwargs)

1
2

s = pd.read_parquet('../notebook_data/downcast_sales.parquet')
1

描述

从文件路径加载一个parquet对象，返回一个DataFrame

参数

path : str, path object or file-like object
文件路径

engine : {‘auto’, ‘pyarrow’, ‘fastparquet’}, default ‘auto’
如果为“自动”，则使用选项io.parquet.engine。
io.parquet.engine的默认行为是尝试使用“ pyarrow”，如果“ pyarrow”不可用，则退回到“ fastparquet”。

columns : list, default=None
如果不是None，则只从文件中读取这些列

use_nullable_ : dtypesbool, default False

DataFrame

参考链接
[1] pandas—pandas.read_parquet 2021.1

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Monodyee/article/detail/515971

pandas之pd.read_parquet()和pd.to_parquet()介绍

目录

为何要用 parquet

1. pd.to_parquet() 存

2. pd.read_parquet() 取