当前位置:   article > 正文

字节跳动 —— 2023暑期实习面试_字节暑期面试流程

字节暑期面试流程

一面内容

字节跳动 —— 2023暑期实习面试

时间:2022.3.29 16:00

岗位:Data 数据平台 数据研发

时常:25分钟左右

仅作为1面的复盘

1. 自我介绍(面试官先自我介绍)

2. 为何工作后读研(之前工作行业相对特殊)

3. 何时能开始实习(5月),能实习多久(4个月),面试官说一般是6个月,我说没有问题,多两个月也行

4. Hadoop HA 如何实现的?高可用集群的调度工具是什么?

5. Hadooop宕机了,如何应对这种问题?(采用副本机制)

6. 副本机制是什么?(block按照3份保存,分别放在不同的DN上,当节点A故障,从B和C上读取, ) , 我多说了一句client读取的时候遵循两个原则:就近且可靠, 面试官追问:这里就近是物理距离还是传输,我想了想说是传输(本质是带宽性能,有蒙的嫌疑)

7. 这里突然话锋一转:3副本机制改为2副本机制会有什么影响?(我下意识回答,副本数减少,占用的存储空间也减少,后面想不到,感觉这是一种基于实际工作经验的场景题)

8. 面试官引导,换个问题:本来3副本,现在有两副本,如何把第三个补上(开始我愣了一下,他提醒pipeline知道吗?我才意识到是HDFS的写过程,第二个节点通过建立 pipeline 向第三个节点以packet为单元传输数据,从而把数据写入第三个节点)

9. Hive sql 相关, 为什么产生小文件?如何避免小文件?(数据装载过程中最容易产生小文件,比较常规,4种方法,concatenate, 减少mapper, 减少reducer , Hadoopd的archive工具合并成HAR文件)

10. sql题 

tb_visit, 四个字段 user_id, time , city, date(分区), 求 date ='2022-01-01' , 输出 user_id, 访问次数,首次访问的城市,末次访问的time。 答的不好mmmmmm  

11.反问 (业务部门主要是离线还是实时,从数仓岗位来说,业务和技术哪个更重要?目前网上的一种说法业务的重要性似乎更高,需要投入的经历相对更多) 

一面感觉 

面试官态度还是很好的,有提醒。但是,感觉知道八股文/重点题目考的没啥意思,比如MR过程,Hive数据倾斜如何处理, 选了一些相对偏一点的,同时附加了场景,需要理论+实际经验(没有实际工作经验,不太好容易get到想考的点),也怪自己准备不够充分,毕竟只考了一些离线的内容,细枝末节答的也不太好,挺尴尬。。。 

另外,sql题我着实没想到,想着应该是常见的留存率,连续登陆,topN问题, 都是子查询嵌套+ group by分组 + 窗口函数。还是sql题刷少了,思维还没锻炼好。  

面试官全程没有管我的简历,简历里的项目压根就没管,一般来说根据简历中的内容提问,写了啥顺着问你,所以根据简历准备面试免得自己答不上来。自圆其说都达不到着实尴尬了

只是这回面试官全程按自己的来,搞得我专门准备的项目经历,建模理论,数仓建设全流程相关(数据准备(探查 定义 读取 对账),数据处理等内容),主题划分,指标统计一点没用上,感觉好奇怪。。。可能是面试官猜到项目这一块我准备的相对充分,专考察基础点, emmmmmm?

小结:

1. Hadoop  Hive八股文被面试官掠过,一些跟生产事故场景相关的细节需要注意(宕机的应对措施,应对过程,由此牵扯出的心跳机制啥的也有可能顺着问你)。 

2. sql题(这次是没考算法题)多刷多练

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/455982
推荐阅读
相关标签
  

闽ICP备14008679号