赞
踩
题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程
【上周毕业典礼,放肆high~~~】
1、RDD基础
RDD(risilient distributed dataset )弹性分布式数据集,简单理解成不可变的分布式的元素集合
2.创建RDD【python】
创建RDD有两种:外部读取文件和自定义传递集合给SparkContext
shell命令:
- lines=sc.parallelize(["pandas","i love pandas"])#传递集合
- lines.count()
-
运行截图:
shell命令:
- lines=sc.textFile("README.md")#读取外部文件
- lines.count()
运行截图:
2.RDD操作【python】
RDD操作分为两种:转化操作和行动操作,其中转化操作是指由一个RDD转化为另一个RDD
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。