当前位置:   article > 正文

RDD的创建 - Python_第2关:读取外部数据集创建rdd

第2关:读取外部数据集创建rdd

第1关:集合并行化创建RDD

  1. # -*- coding: UTF-8 -*-
  2. from pyspark import SparkContext
  3. if __name__ == "__main__":
  4. #********** Begin **********#
  5. # 1.初始化 SparkContext,该对象是 Spark 程序的入口
  6. sc = SparkContext("local", "Simple App")
  7. # 2.创建一个1到8的列表List
  8. List = {1,2,3,4,5,6,7,8}
  9. # 3.通过 SparkContext 并行化创建 rdd
  10. rdd = sc.parallelize(List)
  11. # 4.使用 rdd.collect() 收集 rdd 的内容。 rdd.collect() 是 Spark Action 算子,在后续内容中将会详细说明,主要作用是:收集 rdd 的数据内容
  12. rdd1 = rdd.collect()
  13. # 5.打印 rdd 的内容
  14. print(rdd1)
  15. # 6.停止 SparkContext
  16. sc.stop()
  17. #********** End **********#

第2关:读取外部数据集创建RDD

  1. # -*- coding: UTF-8 -*-
  2. from pyspark import SparkContext
  3. if __name__ == '__main__':
  4. #********** Begin **********#
  5. # 1.初始化 SparkContext,该对象是 Spark 程序的入口
  6. sc = SparkContext("local", "Simple App")
  7. # 文本文件 RDD 可以使用创建 SparkContext 的textFile 方法。此方法需要一个 URI的 文件(本地路径的机器上,或一个hdfs://,s3a://等URI),并读取其作为行的集合
  8. # 2.读取本地文件,URI为:/root/wordcount.txt
  9. raw = sc.textFile("/root/wordcount.txt")
  10. rdd = raw.map(lambda x:x)
  11. # 3.使用 rdd.collect() 收集 rdd 的内容。 rdd.collect() 是 Spark Action 算子,在后续内容中将会详细说明,主要作用是:收集 rdd 的数据内容
  12. rdd.collect()
  13. # 4.打印 rdd 的内容
  14. print(rdd.collect())
  15. # 5.停止 SparkContext
  16. sc.stop()
  17. #********** End **********#

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/IT小白/article/detail/532837
推荐阅读
相关标签
  

闽ICP备14008679号