赞
踩
在大数据生态圈里,数据存储可分为两大类:一类是直接以文件形式存放在分布式文件系统上,处理工具可直接读写(Hive和Spark SQL);另一类通过NoSQL数据库来存储和管理数据。
无论为Hive还是Spark SQL,它们的数据库和数据表都是直接映射到HDFS的目录上,所有批处理的存储规划实际就是对HDFS存储空间的规划。批处理的主要工作内容是构建数据仓库。
CSV是最为常见的文件格式,大多数数据库和数据采集工具都内置了对CSV格式的支持,使得CSV格式是一种非常理想的基于文件的数据交换方案。Hive字0.14版本就提供了读写CSV格式的Serde(序列化和反序列化类)。Hive可指定将CSV的文件作为数据表的存储文件。
JSON也是使用频率极高的一类文件格式,与CSV格式相比,JSON格式最大的优势在于它是“自描述”的,它携带了格式信息。同时,JSON可以描述非关系型数据,这是JSON另一大优势。在Hive和Spark SQL下既有内置的JSON Serde,也有第三方的。
纯文本格式的文件便于调试和排查错误,但是它们占用空间大,处理效率也不及二进制格式,因此在生成环境中,更多使用二进制格式来存储数据。ORC格式的优势主要有:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。