高级大数据研发工程师面试题总结_面试高级数据开发问题

作者：我家小花儿 | 2024-03-22 16:37:22

踩

面试高级数据开发问题

1.Spark处理数据流程、并行度决定机制

2.SparkSQL解析SQL的详细流程、hash广播底层实现

3.Spark shuffle、shuffle文件

4.groupByKey、reduceByKey、aggregateByKey、combineByKey区别

5.repartition和coalesce区别

6.Spark内存管理模型

7.Spark中能够进行下推的算子和不能进行下推的算子有哪些？谓词下推？映射（project）下推？

8.数仓数据的存储格式（parquet+snappy），为什么使用parquet、parquet特性、底层结构？parquet事务？parquet进行字段的新增或删除，如何进行数据的历史数据中字段的新增或删除（非重跑数据）？

9.Flink watermark

10.HDFS写数据流程、fsimage作用、如何区分HDFS热数据和冷数据

11.数据倾斜（Spark、Hive、HBase）

12.MapReduce原理，map数、reduce数决定机制

13.说一下 map join 与 reduce join

14.spark和hive的区别

15.udf、udtf、udaf，集成的类、接口，怎么写

16.hive文件存储格式，对比

17.parquet文件和orc文件区别

18.hive内外表区别

19.hive执行的job数是怎么确定的

20.窗口函数中几个rank函数的区别

21.cube、grouping sets、grouping__id

22.你进行过hive sql到spark sql的任务迁

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/我家小花儿/article/detail/289419