当前位置:   article > 正文

Spark的关键技术回顾_spark关键技术

spark关键技术

 文章目录

前言

Spark的关键技术回顾

一、Spark复习题回顾

1、Spark使用的版本

2、Spark几种部署方式?

3、Spark的提交任务的方式?

4、使用Spark-shell的方式也可以交互式写Spark代码?

5、你对RDD是怎么理解的?

6、Spark如何实现容错?

7、Spark共享变量?

8、Spark的任务执行?

9、Spark的RDD的几种类型?

10、Spark的Transformation算子有几类?

11、RDD创建的三种方法?

12、RDD-DataSet和DataFrame的区别和联系?

13、SparkSQL中查询一列的字段的方法有几种?

14、SparkSQL中的如何动态增加Schema? 

15、SparkSQL中DSL和SQL风格差异?

16、SparkSQL中SQL风格全局Session和局部的Session的差别是什么?

17、SparkSQL整合Hive?

18、[非常重要]SparkSQL如何执行SQL的,SQL的查询引擎

19、SparkStreaming几种编程模式?

20、对于DStream如何使用RDD的方法?

21、SparkStreaming的有状态的几种形式?

22、SparkStreaming和Kafka的整合,如何获取Offset,010整合

23、SparkStreaming有两个时间?

24、生产者生产数据过多,消费者SparkStreaming来不及消费,请问造成什么现象?


Spark的关键技术回顾

一、Spark复习题回顾

1、Spark使用的版本

2.4.5版本,目前3.1.2为最新版本

集群环境:CDH版本是5.14.0这个版本
但由于spark对应的5.14.0的CDH版本的软件默认的版本是1.6.0同时阉割了SarkSQL,需要重新编译
原因: 因为Cloudera公司认为有了impala就不需要再使用sparkSQL的功能了,同时也是为了推广impala,所以直接阉割掉了sparkSQL的模块。
解决: 使用Apache的版本的spark来进行重新编译

2、Spark几种部署方式?

  1. Local(local[*],所有的cpu cores)
  2. StandAlone(Master-local)
  3. StandAloneHA(多个Master)
  4. Yarn(RS-NM) --client 模式和cluster 模式

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Li_阴宅/article/detail/945511
推荐阅读
相关标签
  

闽ICP备14008679号