赞
踩
实践目标:
- Spark的安装
- SPark的基础操作
- Spark shell实践WordCount例子
参考林子雨的Spark操作指南[1]进行安装,注意选择安装包的时候,选without-hadoop的版本。
如何获取hdfs上的端口号?
hdfs getconf -confKey fs.default.name
编写wordcount代码程序,关于这段代码的解释在博客中[2]可以找到。
sc.textFile("hdfs://localhost:9000/user/hadoop/input/b").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://localhost:9000/user/hadoop/outputSpark")
请注意,这段代码中的input文件是当初在hdfs上创建的文件夹,它在HDFS中的完整路径是“/user/hadoop/input”。
运行成功之后到输出目录上寻找输出文件:
至此,实验完成。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。