Spark大数据分析与实战课后习题参考答案_spark大数据分析与实战课后答案

作者：花生_TL007 | 2024-05-14 08:16:17

踩

spark大数据分析与实战课后答案

项目一：

一、选择题
DCCDAD
二、简答题
1、Hadoop MapReduce要求每个步骤间的数据序列化到磁盘，所以I/O成本很高，导致交互分析和迭代算法开销很大；Spark 提供了内存计算，把中间结果放到内存中，带来了更高的迭代运算效率。通过支持有向无环图（DAG）的分布式并行计算的编程框架，Spark 减少了迭代过程中数据需要写入磁盘的需求，提高了处理效率。
2、Local模式（单机模式）、Standalone模式、Spark on Mesos模式、Spark on YARN模式

项目二：

一、判断题
√√×√×
二、选择题
DDBDC

项目三：

一、判断题
√××××
二、选择题
DABC

项目四：

一、判断题
√×√√×
二、选择题
DDDA

项目五：

一、判断题
×××××
二、问答题
1、本教材图5-40中，对于输入数据Input，Spark从逻辑上生成RDD1和RDD2两个RDD，经过一系列“转换”操作，逻辑上生成了RDDn；但上述RDD并未真正生成，他们是逻辑上的数据集，Spark只是记录了RDD之间的生成和依赖关系。当RDDn要进行输出时（执行“行动操作”时），Spark才会根据RDD的依赖关系生成DAG（有向无环图），并从起点开始真正的计算。

2、窄依赖：一个RDD对它的父RDD，只有简单的一对一的依赖关系&#x

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/568109