当前位置:   article > 正文

大数据工程师面试题(附答案)_大数据基础面试题

大数据基础面试题

MapReduce 1. 不指定语言,写一个WordCount的MapReduce

:最近刚学了scala,并且就有scala版本的WordCount,刚好学以致用了一下:

对大数据【数据分析,数据挖掘】概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。

:至于java版本,虾皮博主的一篇文章讲解的非常细致:

Hadoop集群(第6期)_WordCount运行详解

2. 上述写的程序中.map((_,1))的输出结果是什么

:通过flatMap将其扁平化,而.map((_,1)) 则是每个出现单词,1这样的形式展现,此时还没归并。

3. 你能用SQL语句实现上述的MapReduce吗?要求按照基于某个字段的值的频次倒序,并且以维度——频次的形式结果展现?

:基于某个字段——决定了要用group By,频次要用count聚合,倒序自然少不了desc

:框架搭好就是往里塞了:

4.给你一份乱序的100万个数字的文件,你如何来排序?

:先拆分成若干小的,然后再排(思路是从希尔排序出发的)

:内部排序算法:希尔排序

http://www.xiapistudio.com/archives/291.html

Spark 1. 说一说Spark程序编写的一般步骤࿱

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/菜鸟追梦旅行/article/detail/422520
推荐阅读
相关标签
  

闽ICP备14008679号