当前位置:   article > 正文

spark快速大数据分析之学习记录(五)_lines.count('上周')

lines.count('上周')

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程

【上周毕业典礼,放肆high~~~】

1、RDD基础

RDD(risilient distributed dataset )弹性分布式数据集,简单理解成不可变的分布式的元素集合

2.创建RDD【python

创建RDD有两种:外部读取文件和自定义传递集合给SparkContext

shell命令:

  1. lines=sc.parallelize(["pandas","i love pandas"])#传递集合
  2. lines.count()

运行截图:

shell命令:

  1. lines=sc.textFile("README.md")#读取外部文件
  2. lines.count()

运行截图:

2.RDD操作【python】

RDD操作分为两种:转化操作和行动操作,其中转化操作是指由一个RDD转化为另一个RDD࿰

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/999732
推荐阅读
相关标签
  

闽ICP备14008679号