当前位置:   article > 正文

【闲聊】大数据开发实习生每天在干什么_大数据技术实习什么

大数据技术实习什么

  之前写了大数据开发全流程和四种岗位选择,没看过的可以看一下:
大数据开发全流程
大数据开发四种岗位选择
今天就来谈谈实习具体在干什么。

  1. 入职,开通各种权限,各种账号(比如公司邮箱,跑任务的 yarn 队列也需要申请权限,ES 等集群也需要读取和写入的权限,不再赘述)。
  2. 刚开始有几天学习,包括企业文化,隐私,安全(数据安全和人生安全),反腐,基础知识学习,还有数据开发入职前两周必须学完《Hive 编程指南》。感兴趣的同学可以提前学习,面试的时候被问到最近在看什么书,说出来这一本应该也算加分项吧。可以点击最后面的链接关注公众号阅读获取笔记,公众号回复 803 获取原书 PDF。
  3. 每个人分配一个 mentor,每天和 mentor 语音,他会给你讲课,不懂的也可以问,所以进步比较快。
  4. 每天要写工作汇报,大家都能看到,所以你经常会看到别的实习生晚上 11 点、12 点还在发工作汇报,说好的中国人不卷中国人呢…
  5. 熟悉业务。毕竟数仓是贴近业务的。
  6. 工作。
  7. 开会。每天好几个会吧。

工作又分好几块:

  • oncall:就是查 bug,线上出问题了会找到你。怎么查这个 bug 呢,这就是追溯,可以后面写文章详细讨论。
  • 重构:以前的表换了,比如 dwd 层一张表换成了另一张表,你下游的 dws、app 是不是都得变。这里就会产生数据一致性问题,面试经常问数据一致性,这里后面详细讨论。
  • 开发迭代需求:在已有的需求基础上迭代,修改一些原来已经存在的代码。这里就需要你读懂前人的代码逻辑…
  • 开放新需求:这个工作周期长,难度大,需要和 PM、QA、RD、UI 等等很多人合作。这里后面细说。
  • 回溯:这个工作占比很大,比如你产出了 app 层的表,修改了其中的口径(可以理解为字段的计算逻辑),那么修改完后是不是的重跑历史数据,这并不是点一下运行就能完事的。后面再详细讨论。
  • 同步:怎么把 Hive 的数据推到 Elasticsearch 或者 ClickHouse 让线上能够使用?

今天先把问题抛出了,后面慢慢填坑吧。
欢迎关注公众号。
HiveQL 的查询语句
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/673380
推荐阅读
相关标签
  

闽ICP备14008679号