赞
踩
了解spark相关背景以及其框架特点
掌握搭建spark集群(尤其是高可用集群搭建) (重点)
掌握spark应用程序开发以及运行 (重点)
掌握Spark框架中的角色 (重点)
2.1什么是Spark
Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。
Spark官网:http://spark.apache.org/
概念:Spark是统一的分布式大数据分析引擎
关键词:
统一:Spark能够适应多种计算场景 (离线计算、实时计算、机器学习、图计算、AI应用)。一般公司在进行技术选型过程,spark首选
大数据分析引擎:Spark能够分析数据,但是没有存储。一般线上的spark数据来源 (HDFS, Hive、Kafka、Flume、日志文件、关系型数据库、NoSQL数据库)。Spark数据出口(HDFS、Hive、Kafka、Redise、关系型数据库、NoSQL数据库)
分布式:Spark一般情况是以集群模式存在。架构 :Master/Slaver(主从结构)
应用场景
精准广告推荐系统(Spark机器学习,一般在广告或者电商公司应用)
金融风险管控系统 (对实时性要求比较,起码毫秒级)
精细化运行系统 (CMS系统 、BI系统,重点:多维分析)
用户画像 (用户数据画像)
2.2为什么要学习spark
Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Spark中的Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。
2.2 Spark特点:
速度快
典型数据处理流程:Spark在使用过程中,会读取HDFS上数据,并且会将HDFS中数据驻留在内存当中,将数据进行缓存、在后续数据迭代操作过程能够重用内存中的数。在逻辑回归处理(算法)中,Spark的速度要比Hadoop 理论上快100倍
与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。
Spark对程序员非常友好
spark支持多种语言(Java、Scala、Python、R、SQL)
Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell,可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法。
Spark一站式解决方案
五大模块
SparkCore (处理离线数据)
SparkSQL (主要用来做多维数据分析、以及交互式查询)
SparkStreaming (实时数据处理程序)
Spark MLlib (机器学习 包含非常多算法,相当于Spark提供的一个算法)
Spark Graphx (图计算处理模块)
在开发Spark应用程序过程中,能够同时使用以上所有模块。以上模块能够无缝兼容
Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。这些不同类型的处理都可以在同一个应用中无缝使用。Spark统一的解决方案非常具有吸引力,毕竟任何公司都想用统一的平台去处理遇到的问题,减少开发和维护的人力成本和部署平台的物力成本。
兼容性
Spark能够兼容 (hadoop、hive、hbase、yarn、kafka、flume、redise、关系型数据等)
Spark可以非常方便地与其他的开源产品进行融合。比如,Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等。这对于已经部署Hadoop集群的用户特别重要,因为不需要做任何数据迁移就可以使用Spark的强大处理能力。Spark也可以不依赖于第三方的资源管理和调度器,它实现了Standalone作为其内置的资源管理和调度框架,这样进一步降低了Spark的使用门槛,使得所有人都可以非常容易地部署和使用Spark。此外,Spark还提供了在EC2上部署Standalone的Spark集群的工具。
spark应用程序想要运行需要资源(CPU和内存 网络资源)。spark支持多种获取资源的方式。spark根据获取资源方式的不同,就具备不同的运行模式。
不同的运行模式
local[N] :通过本机启动线程的方式,来模拟spark的并行计算。N可以是具体的数字 ,N可以是* :*代表的是机器的cpu核数 (学习)
standalone:标准模式,以spark集群模式提交应用程序。standalone模式 是向spark的master进程去获取资源 (集群测试+学习)
yarn:spark以集群模式提交应用程序,向yarn申请资源(ResourceManager进程申请资源)。线上运行都是以这种模式。(生产环境下边的运行模式)
高可用模式提交任务:在高可用模式下,因为涉及到多个Master,所以对于应用程序的提交就有了一点变化,因为应用程序需要知道当前的Master的IP地址和端口。这种HA方案处理这种情况很简单,只需要在SparkContext指向一个Master列表就可以了,如spark://host1:port1,host2:port2,host3:port3,应用程序会轮询列表,找到活着的Master。
8.1spark-shell开发
spark-shell初始化操作
Spark context Web UI:Spark Job任务的管理界面
Spark context :初始化SparkContext对象 名称 sc (SparkContext对象是spark应用程序的入口对象)
master = local[*]:默认情况下spark-shell 向本地机器获取资源
app id = local-1557469470546。 每个spark应用程序都会产生一个appid
Spark session:一次回话对象,可以使用sparksession 调用SparkSQL
基于spark-shell的wordcount操
spark-shell 以standalone模式启动
./spark-shell --master spark://node-01:7077
由于spark在spark-env.sh配置了 HADOOP_CONF_DIR 路径,那么spark-shell 读取数据默认的都是hdfs之上数据
9.基于IDEA编程
Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算,比Hadoop中MapReduce计算框架具有更高的实时性,同时保证了高效容错性和可伸缩性。从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目,并成功应用于商业集群中,学习Spark就需要了解其架构。
Spark架构使用了分布式计算中master-slave模型,master是集群中含有master进程的节点,slave是集群中含有worker进程的节点。
Driver Program :运⾏main函数并且新建SparkContext的程序。
Application:基于Spark的应用程序,包含了driver程序和集群上的executor。
Cluster Manager:指的是在集群上获取资源的外部服务。目前有三种类型
(1)Standalone: spark原生的资源管理,由Master负责资源的分配
(2)Apache Mesos:与hadoop MR兼容性良好的一种资源调度框架
(3)Hadoop Yarn: 主要是指Yarn中的ResourceManager
Worker Node: 集群中任何可以运行Application代码的节点,在Standalone模式中指的是通过slaves文件配置的Worker节点,在Spark on Yarn模式下就是NodeManager节点
Executor:是在一个worker node上为某应用启动的⼀个进程,该进程负责运行任务,并且负责将数据存在内存或者磁盘上。每个应用都有各自独立的executor。
Task :被送到某个executor上的工作单元。
按照提供资源分配
ClusterManger:集群资源管理器,会接受SparkContext发送来指令(申请资源),然后向workerNode节点发送指令分配资源
standalone模式: spark的master节点
yarn模式:ResourceManage
WorkerNode:提供Spark应用程序运行时所需要的资源 (CPU和内存)。Workernode 在接受到clusterManger的指令后,会汇报worker的信息。
以上节点完成了Spark应用程序运行时所需要的资源
资源分配方式:
静态分配:一次性费配资源,在整个spark应用程序运行过程中,不会再次分配资源
standalone:属于静态分配
动态分配:在整个spark应用程序运行过程中,需要多少给多少,需要多次分配资源,一旦资源使用完成,会进行回收,再次需要的时候会再次申请资源
yarn:动态分配
按照程序运行的方式分配
Driver Programe: main +sparkcontext。 一般运行在Diver节点(可以是一台机器)
Driver节点可有与spark 集群分离。一般情况下Driver节点其实就是Spark集群中的某台机器。这样做是为了节省网络资源。因为在这个Spark应用程序运行过程中,会不断与Spark集群进行信息传递。
Spark-submit 把程序提交到yarn集群,yarn会根据集群资源状况,分配一个driver,然后spark程序会将jar上传到yarn,通过yarn去执行。
standalone:master节点就可以作为driver节点
Sparkcontext:是spark程序的入口对象。并且还是Spark应用程序的核心调度对象。在SparkContext对象初始化过程中,初始化了三个重要调度对象:高层调度器 DAGScheduler 底层调度 TaskScheduler SchedulerBackend 负责通信
Executor:运行在worker节点的一个进程。在Eecutor进程中,启动线程池运行Task。通过线程并发执行和以及线程复用的形式执行Task
Task:是数据处理任务最小单元,整个Spark应用程序最终会被划分成不同的Task,去运行处理数据。
cache:缓存,主要缓存RDD中数据的, 可以缓存到内存也可以缓存到磁盘,还可以缓存HDFS之上。
以上角色 就完成了整个Spark Job的调度
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。