赞
踩
Spark是一种分布式的计算框架,可以处理海量数据,目前流行的计算框架
Spark框架设计目的:可以一栈式处理大数据所有的应用场景包括:
RDD(Resilient Distributed Datasets)
RDD:弹性分布式数据集,初学时,可以把RDD看做是一种集合类型(Array,List类比)
RDD的特点
RDD的分区机制目的:
可以分布式的计算RDD的数据集,底层可以确保分区数据的负载均衡状态
创建RDD的方式
sc是SparkContext的别名对象,用于操作Spark的入口对象,通过sc可以创建RDD,广播变量,此外sc用于负责job任务的分配和监控
创建RDD方法
(1) sc.parallelize(普通类型集合,分区数量)
(2) sc.makeRDD(普通类型集合,分区数量)
关于RDD分区相关的方法
(1) rdd.partitions.size:查看分区数
(2) rdd.glom.collect:查看分区数据
创建RDD的两种途径
两种:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。