赞
踩
此前保存数据都是选择csv,最近在处理一个200w行的DataFrame大数据时,感觉csv保存速度有点慢,所以查了一下发现保存DataFrame有很多数据格式,因为使用的是python,所以选择了python里面保存文件的一种格式,即pkl文件与csv进行了比较。
主要比较两个方面,一是保存和读取时间,二是存储空间。
下面这个是数据大小(200w行,4列):
csv的程序
- data.to_csv("D:/qqfile/tzzs_data.csv",index=False)
- read_csv = pd.read_csv("D:/qqfile/tzzs_data.csv")
耗时
pkl的程序
- data.to_pickle("D:/qqfile/tzzs_data.plk")
- read_pkl = pd.read_pickle("D:/qqfile/tzzs_data.plk")
耗时
结论一:pkl写入时间是csv的58%,读取时间是csv的24%。
结论二:pkl存储大小是csv的42%。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。