赞
踩
1.Spark处理数据流程、并行度决定机制
2.SparkSQL解析SQL的详细流程、hash广播底层实现
3.Spark shuffle、shuffle文件
4.groupByKey、reduceByKey、aggregateByKey、combineByKey区别
5.repartition和coalesce区别
6.Spark内存管理模型
7.Spark中能够进行下推的算子和不能进行下推的算子有哪些?谓词下推?映射(project)下推?
8.数仓数据的存储格式(parquet+snappy),为什么使用parquet、parquet特性、底层结构?parquet事务?parquet进行字段的新增或删除,如何进行数据的历史数据中字段的新增或删除(非重跑数据)?
9.Flink watermark
10.HDFS写数据流程、fsimage作用、如何区分HDFS热数据和冷数据
11.数据倾斜(Spark、Hive、HBase)
12.MapReduce原理,map数、reduce数决定机制
13.说一下 map join 与 reduce join
14.spark和hive的区别
15.udf、udtf、udaf,集成的类、接口,怎么写
16.hive文件存储格式,对比
17.parquet文件和orc文件区别
18.hive内外表区别
19.hive执行的job数是怎么确定的
20.窗口函数中几个rank函数的区别
21.cube、grouping sets、grouping__id
22.你进行过hive sql到spark sql的任务迁
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。