赞
踩
HDF(Hierarchical Data Format层次数据格式)是一种设计用于存储和组织大量数据的文件格式,最开始由美国国家超算中心研发, 后来由一个非盈利组织HDF Group支持。
HDF支持多种商业及非商业的软件平台,包括MATLAB、Java、Python、R和Julia等等,现在也提供了Spark。其版本包括了HDF4和现在大量用的HDF5。
h5是HDF5文件格式的后缀。h5文件对于存储大量数据而言拥有极大的优势,当csv格式的数据集太大(GB以上),pd.read_csv读取速度非常慢时,请果断使用h5存储数据!!!,既能装逼,效率又高!
h5文件中有两个核心的概念:组“group”和数据集“dataset”。 一个h5文件就是 “dataset” 和 “group” 二合一的容器。
dataset :简单来讲类似数组组织形式的数据集合,像 numpy 数组一样工作,一个dataset即一个numpy.ndarray。
具体的dataset可以是图像、表格,甚至是pdf文件和excel。
group:包含了其它 dataset(数组) 和 其它 group ,像字典一样工作。 一个h5文件被像linux文件系统一样被组织起来:
dataset是文件,group是文件夹,它下面可以包含多个文件夹(group)和多个文件(dataset)。形象来看h5数据组织方式大概像
本程序所在位置的 "HDF5.png"所
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。