小惠珠哦

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

大数据平台架构与原型实现-读书笔记9_avor格式

作者：小惠珠哦 | 2024-07-18 22:36:08

赞

踩

avor格式

第九章数据存储

在大数据生态圈里，数据存储可分为两大类：一类是直接以文件形式存放在分布式文件系统上，处理工具可直接读写（Hive和Spark SQL）；另一类通过NoSQL数据库来存储和管理数据。

一、批处理的数据存储\

无论为Hive还是Spark SQL，它们的数据库和数据表都是直接映射到HDFS的目录上，所有批处理的存储规划实际就是对HDFS存储空间的规划。批处理的主要工作内容是构建数据仓库。

1.1 CSV格式

CSV是最为常见的文件格式，大多数数据库和数据采集工具都内置了对CSV格式的支持，使得CSV格式是一种非常理想的基于文件的数据交换方案。Hive字0.14版本就提供了读写CSV格式的Serde（序列化和反序列化类）。Hive可指定将CSV的文件作为数据表的存储文件。

1.2 JSON格式

JSON也是使用频率极高的一类文件格式，与CSV格式相比，JSON格式最大的优势在于它是“自描述”的，它携带了格式信息。同时，JSON可以描述非关系型数据，这是JSON另一大优势。在Hive和Spark SQL下既有内置的JSON Serde，也有第三方的。

1.3 ORC格式

纯文本格式的文件便于调试和排查错误，但是它们占用空间大，处理效率也不及二进制格式，因此在生成环境中，更多使用二进制格式来存储数据。ORC格式的优势主要有：

每个Task的输出会作为一个单独的文件，这会减少NameNode负荷；
支持Hive的很多数据类型，包括datetime、decimal，以及复合类型struct、list、map和uni

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小惠珠哦/article/detail/848124

推荐阅读

article 《AJAX高级程序设计》读书笔记(三)...
AJAX的动态脚本载入创建一个新的

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号