当前位置:   article > 正文

Python机器学习012:当csv格式的数据集太大(GB以上),pd.read_csv读取速度非常慢时,请果断使用h5!!!_read_csv速度慢

read_csv速度慢

(一)HDF与h5

HDF(Hierarchical Data Format层次数据格式)是一种设计用于存储和组织大量数据的文件格式,最开始由美国国家超算中心研发, 后来由一个非盈利组织HDF Group支持。

HDF支持多种商业及非商业的软件平台,包括MATLAB、Java、Python、R和Julia等等,现在也提供了Spark。其版本包括了HDF4和现在大量用的HDF5。

h5是HDF5文件格式的后缀。h5文件对于存储大量数据而言拥有极大的优势,当csv格式的数据集太大(GB以上),pd.read_csv读取速度非常慢时,请果断使用h5存储数据!!!,既能装逼,效率又高!

(二)h5文件数据组织方式:像Linux文件系统一样组织数据

h5文件中有两个核心的概念:组“group”和数据集“dataset”。 一个h5文件就是 “dataset” 和 “group” 二合一的容器。
   dataset :简单来讲类似数组组织形式的数据集合,像 numpy 数组一样工作,一个dataset即一个numpy.ndarray。
具体的dataset可以是图像、表格,甚至是pdf文件和excel。
   group:包含了其它 dataset(数组) 和 其它 group ,像字典一样工作。 一个h5文件被像linux文件系统一样被组织起来:
dataset是文件,group是文件夹,它下面可以包含多个文件夹(group)和多个文件(dataset)。形象来看h5数据组织方式大概像
本程序所在位置的 "HDF5.png"所

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/163949
推荐阅读
相关标签
  

闽ICP备14008679号