当前位置:   article > 正文

大数据平台架构与原型实现-读书笔记9_avor格式

avor格式

第九章 数据存储

       在大数据生态圈里,数据存储可分为两大类:一类是直接以文件形式存放在分布式文件系统上,处理工具可直接读写(Hive和Spark SQL);另一类通过NoSQL数据库来存储和管理数据。

一、批处理的数据存储\

       无论为Hive还是Spark SQL,它们的数据库和数据表都是直接映射到HDFS的目录上,所有批处理的存储规划实际就是对HDFS存储空间的规划。批处理的主要工作内容是构建数据仓库。

1.1 CSV格式

       CSV是最为常见的文件格式,大多数数据库和数据采集工具都内置了对CSV格式的支持,使得CSV格式是一种非常理想的基于文件的数据交换方案。Hive字0.14版本就提供了读写CSV格式的Serde(序列化和反序列化类)。Hive可指定将CSV的文件作为数据表的存储文件。

1.2 JSON格式

       JSON也是使用频率极高的一类文件格式,与CSV格式相比,JSON格式最大的优势在于它是“自描述”的,它携带了格式信息。同时,JSON可以描述非关系型数据,这是JSON另一大优势。在Hive和Spark SQL下既有内置的JSON Serde,也有第三方的。

1.3 ORC格式

       纯文本格式的文件便于调试和排查错误,但是它们占用空间大,处理效率也不及二进制格式,因此在生成环境中,更多使用二进制格式来存储数据。ORC格式的优势主要有:

  • 每个Task的输出会作为一个单独的文件,这会减少NameNode负荷;
  • 支持Hive的很多数据类型,包括datetime、decimal,以及复合类型struct、list、map和uni
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小惠珠哦/article/detail/848124
推荐阅读