赞
踩
- # -*- coding: UTF-8 -*-
- from pyspark import SparkContext
-
- if __name__ == "__main__":
- #********** Begin **********#
-
- # 1.初始化 SparkContext,该对象是 Spark 程序的入口
- sc = SparkContext("local", "Simple App")
- # 2.创建一个1到8的列表List
- List = {1,2,3,4,5,6,7,8}
- # 3.通过 SparkContext 并行化创建 rdd
- rdd = sc.parallelize(List)
- # 4.使用 rdd.collect() 收集 rdd 的内容。 rdd.collect() 是 Spark Action 算子,在后续内容中将会详细说明,主要作用是:收集 rdd 的数据内容
- rdd1 = rdd.collect()
- # 5.打印 rdd 的内容
- print(rdd1)
- # 6.停止 SparkContext
- sc.stop()
- #********** End **********#
- # -*- coding: UTF-8 -*-
- from pyspark import SparkContext
-
- if __name__ == '__main__':
- #********** Begin **********#
-
- # 1.初始化 SparkContext,该对象是 Spark 程序的入口
- sc = SparkContext("local", "Simple App")
- # 文本文件 RDD 可以使用创建 SparkContext 的textFile 方法。此方法需要一个 URI的 文件(本地路径的机器上,或一个hdfs://,s3a://等URI),并读取其作为行的集合
- # 2.读取本地文件,URI为:/root/wordcount.txt
- raw = sc.textFile("/root/wordcount.txt")
- rdd = raw.map(lambda x:x)
- # 3.使用 rdd.collect() 收集 rdd 的内容。 rdd.collect() 是 Spark Action 算子,在后续内容中将会详细说明,主要作用是:收集 rdd 的数据内容
- rdd.collect()
- # 4.打印 rdd 的内容
- print(rdd.collect())
- # 5.停止 SparkContext
- sc.stop()
- #********** End **********#
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。