当前位置:   article > 正文

spark入门到精通(1)_spark入门到精通 博客

spark入门到精通 博客

Spark学习第一天了解spark,以及一些简单的基础

1.学习目标

  • 了解spark相关背景以及其框架特点

  • 掌握搭建spark集群(尤其是高可用集群搭建) (重点)

  • 掌握spark应用程序开发以及运行 (重点)

  • 掌握Spark框架中的角色 (重点)

2.Spark基础

2.1什么是Spark

Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。

 

  • Spark官网:http://spark.apache.org/

  • 概念:Spark是统一的分布式大数据分析引擎

    • 关键词:

      • 统一:Spark能够适应多种计算场景 (离线计算、实时计算、机器学习、图计算、AI应用)。一般公司在进行技术选型过程,spark首选

      • 大数据分析引擎:Spark能够分析数据,但是没有存储。一般线上的spark数据来源 (HDFS, Hive、Kafka、Flume、日志文件、关系型数据库、NoSQL数据库)。Spark数据出口(HDFS、Hive、Kafka、Redise、关系型数据库、NoSQL数据库)

      • 分布式:Spark一般情况是以集群模式存在。架构 :Master/Slaver(主从结构)

    • 应用场景

      • 精准广告推荐系统(Spark机器学习,一般在广告或者电商公司应用)

      • 金融风险管控系统 (对实时性要求比较,起码毫秒级)

      • 精细化运行系统 (CMS系统 、BI系统,重点:多维分析)

      • 用户画像 (用户数据画像)

2.2为什么要学习spark

Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Spark中的Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补MapReduce的不足。

 

 

2.2 Spark特点:

  • 速度快

    • 典型数据处理流程:Spark在使用过程中,会读取HDFS上数据,并且会将HDFS中数据驻留在内存当中,将数据进行缓存、在后续数据迭代操作过程能够重用内存中的数。在逻辑回归处理(算法)中,Spark的速度要比Hadoop 理论上快100倍

    • 与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流。

  • Spark对程序员非常友好

    • spark支持多种语言(Java、Scala、Python、R、SQL)

    • Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。而且Spark支持交互式的Python和Scala的shell,可以非常方便地在这些shell中使用Spark集群来验证解决问题的方法。

  • Spark一站式解决方案

    • 五大模块

      • SparkCore (处理离线数据)

      • SparkSQL (主要用来做多维数据分析、以及交互式查询)

      • SparkStreaming (实时数据处理程序)

      • Spark MLlib (机器学习 包含非常多算法,相当于Spark提供的一个算法)

      • Spark Graphx (图计算处理模块)

      在开发Spark应用程序过程中,能够同时使用以上所有模块。以上模块能够无缝兼容

      Spark提供了统一的解决方案。Spark可以用于批处理、交互式查询(Spark SQL)、实时流处理(Spark Streaming)、机器学习(Spark MLlib)和图计算(GraphX)。这些不同类型的处理都可以在同一个应用中无缝使用。Spark统一的解决方案非常具有吸引力,毕竟任何公司都想用统一的平台去处理遇到的问题,减少开发和维护的人力成本和部署平台的物力成本。

    •  

  • 兼容性

    • Spark能够兼容 (hadoop、hive、hbase、yarn、kafka、flume、redise、关系型数据等)

    • Spark可以非常方便地与其他的开源产品进行融合。比如,Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器,器,并且可以处理所有Hadoop支持的数据,包括HDFS、HBase和Cassandra等。这对于已经部署Hadoop集群的用户特别重要,因为不需要做任何数据迁移就可以使用Spark的强大处理能力。Spark也可以不依赖于第三方的资源管理和调度器,它实现了Standalone作为其内置的资源管理和调度框架,这样进一步降低了Spark的使用门槛,使得所有人都可以非常容易地部署和使用Spark。此外,Spark还提供了在EC2上部署Standalone的Spark集群的工具。

7.Spark应用程序的运行模式

  • spark应用程序想要运行需要资源(CPU和内存 网络资源)。spark支持多种获取资源的方式。spark根据获取资源方式的不同,就具备不同的运行模式。

  • 不同的运行模式

    • local[N] :通过本机启动线程的方式,来模拟spark的并行计算。N可以是具体的数字 ,N可以是* :*代表的是机器的cpu核数 (学习)

    • standalone:标准模式,以spark集群模式提交应用程序。standalone模式 是向spark的master进程去获取资源 (集群测试+学习)

    • yarn:spark以集群模式提交应用程序,向yarn申请资源(ResourceManager进程申请资源)。线上运行都是以这种模式。(生产环境下边的运行模式)

    • 高可用模式提交任务:在高可用模式下,因为涉及到多个Master,所以对于应用程序的提交就有了一点变化,因为应用程序需要知道当前的Master的IP地址和端口。这种HA方案处理这种情况很简单,只需要在SparkContext指向一个Master列表就可以了,如spark://host1:port1,host2:port2,host3:port3,应用程序会轮询列表,找到活着的Master。

8.Spark应用程序开发

8.1spark-shell开发

  • spark-shell初始化操作

    • Spark context Web UI:Spark Job任务的管理界面

    • Spark context :初始化SparkContext对象 名称 sc (SparkContext对象是spark应用程序的入口对象)

      • master = local[*]:默认情况下spark-shell 向本地机器获取资源

      • app id = local-1557469470546。 每个spark应用程序都会产生一个appid

    • Spark session:一次回话对象,可以使用sparksession 调用SparkSQL

  • 基于spark-shell的wordcount操

  • spark-shell 以standalone模式启动

    • ./spark-shell --master spark://node-01:7077

    • 由于spark在spark-env.sh配置了 HADOOP_CONF_DIR 路径,那么spark-shell 读取数据默认的都是hdfs之上数据

9.基于IDEA编程

  •  

Spark是基于内存计算的大数据并行计算框架。因为其基于内存计算,比Hadoop中MapReduce计算框架具有更高的实时性,同时保证了高效容错性和可伸缩性。从2009年诞生于AMPLab到现在已经成为Apache顶级开源项目,并成功应用于商业集群中,学习Spark就需要了解其架构。

Spark架构使用了分布式计算中master-slave模型,master是集群中含有master进程的节点,slave是集群中含有worker进程的节点。

  • Driver Program :运⾏main函数并且新建SparkContext的程序。

  • Application:基于Spark的应用程序,包含了driver程序和集群上的executor。

  • Cluster Manager:指的是在集群上获取资源的外部服务。目前有三种类型

(1)Standalone: spark原生的资源管理,由Master负责资源的分配

(2)Apache Mesos:与hadoop MR兼容性良好的一种资源调度框架

(3)Hadoop Yarn: 主要是指Yarn中的ResourceManager

  • Worker Node: 集群中任何可以运行Application代码的节点,在Standalone模式中指的是通过slaves文件配置的Worker节点,在Spark on Yarn模式下就是NodeManager节点

  • Executor:是在一个worker node上为某应用启动的⼀个进程,该进程负责运行任务,并且负责将数据存在内存或者磁盘上。每个应用都有各自独立的executor。

  • Task :被送到某个executor上的工作单元。

  •  

  • 按照提供资源分配

    • ClusterManger:集群资源管理器,会接受SparkContext发送来指令(申请资源),然后向workerNode节点发送指令分配资源

      • standalone模式: spark的master节点

      • yarn模式:ResourceManage

    • WorkerNode:提供Spark应用程序运行时所需要的资源 (CPU和内存)。Workernode 在接受到clusterManger的指令后,会汇报worker的信息。

      以上节点完成了Spark应用程序运行时所需要的资源

      资源分配方式:

      • 静态分配:一次性费配资源,在整个spark应用程序运行过程中,不会再次分配资源

        • standalone:属于静态分配

      • 动态分配:在整个spark应用程序运行过程中,需要多少给多少,需要多次分配资源,一旦资源使用完成,会进行回收,再次需要的时候会再次申请资源

        • yarn:动态分配

  • 按照程序运行的方式分配

    • Driver Programe: main +sparkcontext。 一般运行在Diver节点(可以是一台机器)

      • Driver节点可有与spark 集群分离。一般情况下Driver节点其实就是Spark集群中的某台机器。这样做是为了节省网络资源。因为在这个Spark应用程序运行过程中,会不断与Spark集群进行信息传递。

      • Spark-submit 把程序提交到yarn集群,yarn会根据集群资源状况,分配一个driver,然后spark程序会将jar上传到yarn,通过yarn去执行。

      • standalone:master节点就可以作为driver节点

    • Sparkcontext:是spark程序的入口对象。并且还是Spark应用程序的核心调度对象。在SparkContext对象初始化过程中,初始化了三个重要调度对象:高层调度器 DAGScheduler 底层调度 TaskScheduler SchedulerBackend 负责通信

    • Executor:运行在worker节点的一个进程。在Eecutor进程中,启动线程池运行Task。通过线程并发执行和以及线程复用的形式执行Task

    • Task:是数据处理任务最小单元,整个Spark应用程序最终会被划分成不同的Task,去运行处理数据。

    • cache:缓存,主要缓存RDD中数据的, 可以缓存到内存也可以缓存到磁盘,还可以缓存HDFS之上。

      以上角色 就完成了整个Spark Job的调度

 

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/955452
推荐阅读
相关标签
  

闽ICP备14008679号