当前位置:   article > 正文

spark快速大数据分析之学习记录(五)_lines.count('上周')

lines.count('上周')

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程

【上周毕业典礼,放肆high~~~】

1、RDD基础

RDD(risilient distributed dataset )弹性分布式数据集,简单理解成不可变的分布式的元素集合

2.创建RDD【python

创建RDD有两种:外部读取文件和自定义传递集合给SparkContext

shell命令:

  1. lines=sc.parallelize(["pandas","i love pandas"])#传递集合
  2. lines.count()

运行截图:

shell命令:

  1. lines=sc.textFile("README.md")#读取外部文件
  2. lines.count()

运行截图:

2.RDD操作【python】

RDD操作分为两种:转化操作和行动操作,其中转化操作是指由一个RDD转化为另一个RDD࿰

本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/喵喵爱编程/article/detail/999732
推荐阅读
相关标签
  

闽ICP备14008679号