赞
踩
MapReduce 1. 不指定语言,写一个WordCount的MapReduce
我:最近刚学了scala,并且就有scala版本的WordCount,刚好学以致用了一下:
对大数据【数据分析,数据挖掘】概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。
补:至于java版本,虾皮博主的一篇文章讲解的非常细致:
Hadoop集群(第6期)_WordCount运行详解
2. 上述写的程序中.map((_,1))的输出结果是什么
我:通过flatMap将其扁平化,而.map((_,1)) 则是每个出现单词,1这样的形式展现,此时还没归并。
3. 你能用SQL语句实现上述的MapReduce吗?要求按照基于某个字段的值的频次倒序,并且以维度——频次的形式结果展现?
我:基于某个字段——决定了要用group By,频次要用count聚合,倒序自然少不了desc。
补:框架搭好就是往里塞了:
4.给你一份乱序的100万个数字的文件,你如何来排序?
我:先拆分成若干小的,然后再排(思路是从希尔排序出发的)
补:内部排序算法:希尔排序
http://www.xiapistudio.com/archives/291.html
Spark 1. 说一说Spark程序编写的一般步骤
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。