赞
踩
Spark下载地址 http://spark.apache.org/downloads.html
选择包类型为“Pre-built for Hadoop 2.7 and later”,然后直接点击Download Spark,可以得到压缩包。也可以下载历史版本,不过注意Spark1.4之前不支持python3和R语言。
对于压缩包,直接解压即可,注意windowns系统路径中不要有空格
主要文件以及目录的名称作用
README.md:包含Spark入门的简单使用说明
bin:包含可以用来和Spark进行各种交互的一系列可执行文件
core,streaming,python...:包含Spark项目主要组件的源代码
examples:包含一些可以查看和运行的Spark程序
Spark中的Python shell
1.打开Spark Shell,进入Spark目录然后输入
bin\pyspark
界面如下:
运行例子:如下
该例子中,lines就是一个RDD,它是从本地文本文件创建出来的,我们可以对这个RDD进行各种并行操作,比如统计这个数据集中的元素个数,或者输出第一个元素。
从上层上来看,每一个Spark应用都由一个驱动器程序来发起集群上的各种并行操作。驱动器程序应该包含应用的main函数,并且定义了集群上的分布式数据集,还对分布式数据集应用了相关操作。在前面的例子,实际的驱动器程序就是Spark Shell本身。
驱动器程序通过一个SparkContext对象来访问Spark,这个对象代表对计算集群的一个连接。shell启动时已经自动创建了一个SparkContext对象,名叫做sc的变量。
拥有了SparkContext就可以用来创建RDD,同时Spark拥有很多可以传递函数的API,将对应操作运行在集群上。例如下例中查找所有含有“Spark”的句子。
Spark神奇的地方就在于想类似有filter这样基于函数的操作也可以在集群上并行操作。
独立应用即在独立程序中使用Spark。例如在python,java,scala中使用。
在python中使用,只要将之写成python脚本,不过需要使用Spark自带的bin\spark-submit脚本来运行。该脚本会帮我们引入Python程序的Spark依赖。
from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)
运行Python脚本
bin\spark-submit xxx.py
上述例子中展现了SparkContext的基本用法,传递了两个参数。
集群URL:告诉Spark如何连接到集群上。
应用名:这个值可以帮助在用户集群管理器的用户界面上找到应用。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。