当前位置:   article > 正文

使用python打开parquet文件_查看parquet类型文件

查看parquet类型文件

Parquet是一种用于列式存储和压缩数据的文件格式,广泛应用于大数据处理和分析中。Python提供了多个库来处理Parquet文件,例如pyarrowfastparquet。本文将介绍使用这两个库打开Parquet文件的方法,并提供代码示例。

1.安装所需库

使用命令行安装pyarrowfastparquet;

pip install pyarrow fastparquet

2.使用 pyarrow打开Parquet文件

2.1导入必要的库

import pyarrow.parquet as pq

2.2打开Parquet文件

使用pq.ParquetFile类可以打开Parquet文件,并通过调用read()方法读取其中的数据。

  1. parquet_file = pq.ParquetFile('data.parquet')
  2. data = parquet_file.read().to_pandas()

2.3使用打开的数据

data的类型是<class 'pandas.core.frame.DataFrame'>,现在你可以直接使用data变量了。比如这里将其存入到Excel文件中。

  1. import pyarrow.parquet as pq
  2. import pandas as pd
  3. parquet_file = pq.ParquetFile('C:\\Users\Administrator\Desktop\data.parquet')
  4. data = parquet_file.read().to_pandas()
  5. df=pd.DataFrame(data)
  6. excel_path='C:\\Users\Administrator\Desktop\data.xlsx'
  7. df.to_excel(excel_path,index=False)
  8. print(f'数据已保存到 {excel_path}')

3.使用 fastparquet打开Parquet文件

3.1导入必要的库

import fastparquet as fp

3.2打开Parquet文件

使用fp.ParquetFile类可以打开Parquet文件,并通过调用to_pandas()方法将其转换为pandas数据帧。

  1. parquet_file = fp.ParquetFile('data.parquet')
  2. data = parquet_file.to_pandas()

3.3使用打开的数据

data的类型是<class 'pandas.core.frame.DataFrame'>,现在你可以直接使用data变量了。

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/515974
推荐阅读
相关标签
  

闽ICP备14008679号