大数据系统-系统优化与算法优化方向_major technical advancements in apache hive

作者：笔触狂放9 | 2024-08-11 05:24:29

踩

major technical advancements in apache hive

大数据系统面临的问题一般是有以下几个问题造成的：

针对系统执行过程中的作业，参考开源系统与研究论文可以看到大家比较关注的一些优化方向：

1. 存储层：

列存储和文件排布：Major Technical Advancements in Apache Hive

压缩：Choosing a Data Compression Format (Cloudera)

Column Order:

2. 作业调度层：

考虑Locality，Straggler，Capacity，Fair等问题演化出的不同作业调度算法。

Delay Scheduling: A Simple Technique for Achieving Locality and Fairness in Cluster Scheduling

3. 执行过程

借鉴编译优化和数据库查询优化技术进行作业优化。

Apache Spark Join guidelines and Performance tuning

4. 开掘硬件性能

Project Tungsten: Bringing Apache Spark Closer to Bare Metal

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/962454