spark快速大数据分析之学习记录（五）_lines.count('上周')

作者：喵喵爱编程 | 2024-08-18 23:39:12

踩

lines.count('上周')

题外话：这是一个“连载”，主要用于记录并监督我每周的Spark学习进程

【上周毕业典礼，放肆high~~~】

1、RDD基础

RDD(risilient distributed dataset )弹性分布式数据集，简单理解成不可变的分布式的元素集合

2.创建RDD【python】

创建RDD有两种：外部读取文件和自定义传递集合给SparkContext

shell命令：


lines=sc.parallelize(["pandas","i love pandas"])#传递集合
lines.count()

运行截图：

shell命令：


lines=sc.textFile("README.md")#读取外部文件
lines.count()

运行截图：

2.RDD操作【python】

RDD操作分为两种：转化操作和行动操作，其中转化操作是指由一个RDD转化为另一个RDD࿰

本文内容由网友自发贡献，转载请注明出处：https://www.wpsshop.cn/w/喵喵爱编程/article/detail/999732