当前位置:   article > 正文

大数据平台技术:Spark编程实践_大数据技术及应用 spark初级编程实践林子雨

大数据技术及应用 spark初级编程实践林子雨

实践目标:

  1. Spark的安装
  2. SPark的基础操作
  3. Spark shell实践WordCount例子

Spark的安装

参考林子雨的Spark操作指南[1]进行安装,注意选择安装包的时候,选without-hadoop的版本。
在这里插入图片描述

启动Spark Shell

在这里插入图片描述

运行scala版的WordCount

如何获取hdfs上的端口号?
hdfs getconf -confKey fs.default.name
在这里插入图片描述

编写wordcount代码程序,关于这段代码的解释在博客中[2]可以找到。

sc.textFile("hdfs://localhost:9000/user/hadoop/input/b").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://localhost:9000/user/hadoop/outputSpark")
  • 1

在这里插入图片描述

请注意,这段代码中的input文件是当初在hdfs上创建的文件夹,它在HDFS中的完整路径是“/user/hadoop/input”。

运行成功之后到输出目录上寻找输出文件:
在这里插入图片描述
至此,实验完成。

参考

  1. *厦门大学林子雨 Spark操作指南
  2. 博客 在Spark上运行WordCount实例
声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号