搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
小惠珠哦
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
快速使用uni-app搭建小程序项目_uniapp开发小程序
2
Hadoop学习总结(搭建Hadoop集群(伪分布式模式))_设置主机名为hadoop0
3
vscode gitlens插件破解_vscode start pro trial
4
K8S二进制部署
5
Java中MD5加密算法的原理与实现详解_java md5加密算法原理及实现
6
Net Framework 4.7.2安装_net472离线安装包
7
OpenStack Yoga版安装笔记(六)glance练习
8
Navicat Premium 15 for Mac(数据库开发工具)v15.0.36版_navicat premium 15 mac
9
实验:stm32电子钟实验_stm32电子钟设计
10
初学者如何快速入门Python,超适合新手小白的详细攻略!_python快速上手 小白看完秒变大神_手撸python代码怎么学
当前位置:
article
> 正文
spark基本原理&;UI界面解读_spark ui(1),2024年最新大数据开发进程保活黑科技实现原理解密及方法
作者:小惠珠哦 | 2024-07-12 11:58:10
赞
踩
spark基本原理&;UI界面解读_spark ui(1),2024年最新大数据开发进程保活黑科技实现原理解密及方法
1.1 基本原理
driver节点是整个应用程序的指挥所
指挥官是sparkcontext
环境:构建一个集群
应用程序提交
确定主节点,确定指挥所driver,确定指挥官sparkcontext
sparkcontext会向资源管理器申请资源
会将作业分为不同阶段
将不同任务分到不同节点执行
整个过程还会进行监控
资源管理器收到sparkcontext的资源请求
会向executor分配资源
启动executor进程,才会启动线程
executor进程是驻留在不同的work node中
会有成百上千个进程和work node
sparkcontext对象要根据 rdd依赖关系 构建一个DAG图
代码就是针对RDD一次次的操作
这些操作会被转换成一个有向无环图 dag
DAG会被提交到dag scheduler解析
DAG图会被切为很多个阶段 stage
每个stage又分为若干个任务
每一个阶段stage是任务的集合
把这个阶段stage提交给task scheduler
task scheduler负责分发任务
worker node上的executor会向task scheduler主动申请
task scheduler会返回任务给worker node上的executor去派生线程去执行
计算给节点的分发原则:
计算向数据靠拢。数据在哪个节点上面,task scheduler优先分配,完成本地化的处理。
executor运行的结果会再次反馈给task scheduler
再向上传给 dag scheduler
spark context做最后的处理。返回给用户看或者写入HDFS
sparkcontext:代表了整个应用程序连接集群的通道。链接应用和集群
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/小惠珠哦/article/detail/814025
推荐阅读
article
大学生
Spark
速成:
期末
不挂的秘籍_用
spark
和
scala
做
期末
项目...
通过本文的
Spark
速成策略,
大学生
可以在短时间内掌握
Spark
的关键技能,并在
期末
考试中取得优异成绩。记住,实践是学习...
赞
踩
article
spark
期末
复习_
spark
期末
复习...
Scalaobject HelloWorld {def main(args: Array[String]): Unit ...
赞
踩
article
Spark
--
Spark
编程
基础
和
编程
进阶知识总结(第三章
和
第四章)_
spark
基础
实验
和
编程
基础
总...
在RDD的执行过程中,真正的计算发生在行动操作中,在前面的所有转换,
spark
只是记录下转换操作应用的一些
基础
数据集
和
R...
赞
踩
article
Spark
性能
优化之-
资源
调优
_
本地
spark
读写
性能
如何...
文章目录概述
Spark
作业基本运行原理
资源
参数
调优
num-executorsexecutor-memoryexecuto...
赞
踩
article
Synapse
Spark
...
【代码】Synapse
Spark
。Synapse
Spark
rm -r dp203...
赞
踩
article
从
Spark
离线
数仓
到
Flink
实时
数仓
:实战指南...
咱先唠唠为啥要搞这个转变。在数据处理这旮旯,
离线
数仓
和
实时
数仓
那可太不一样了。
离线
数仓
就像老牛拉车,处理数据得等一阵子,...
赞
踩
article
Spark
Delta
Lake...
【代码】
Spark
Delta
Lake。
Spark
Delta
Lake rm -r ...
赞
踩
article
spark
shuffle
写操作——
BypassMergeSortShuffleWriter
...
每一个分区都生成一个临时文件,创建DiskBlockObjectWriter对象,放入partitionWriters。...
赞
踩
article
Spark
ML --
LightGBM
On
Spark
回归
LightGBM
Regressor示例...
向导MAVEN测试数据代码示例结果MAVEN
com
.
microsoft
.m...
赞
踩
article
spark
根据
parquet
文件 建表
_
spark
-
shell
根据
parquet
文件建表和写...
def save
_
table(
spark
: SparkSession, partitionCondition:Strin...
赞
踩
article
[机器学习]
LightGBM
on
Spark
(MML
Spark
) 使用完全手册_
spark
l...
一
Spark
上训练模型优势与劣势(1)机器学习算法一般都有很多个步骤迭代计算的过程,机器学习的计算需要在多次迭代后获得...
赞
踩
article
Spark
Streaming
原理与代码实例讲解_
spark
streaming
大
数据处理
项目
源代码
...
Spark
Streaming
是Apache
Spark
生态系统中的核心组件之一,是建立在
Spark
Core之上的实...
赞
踩
article
spark
withColumn
的
使用
(笔记)...
withColumn
():是Apache Spark中用于DataFrame操作
的
函数之一,它
的
作用是在DataFram...
赞
踩
article
2024年最全[新星
计划
]通过
扩展
Spark
SQL
,
打造自己
的
大
数据分析
引擎(3)
,
2024年...
Spark
Strategies包含了一系列特定
的
Strategies
,
这些Strategies是继承自QueryPlan...
赞
踩
article
[原]
RStudio
Spark
/
Leaflet
与
GIS
最佳
实践...
近年来,基于
Spark
的大数据并行计算方案日渐成熟,在
GIS
领域有了很多
最佳
实践。过去,大多数数据分析师可能都是基于...
赞
踩
article
Spark
Streaming
基于
kafka
的
Direct
详解_
sparkstreaming
和ka...
本博文主要包括一下内容: 1,
Spark
Streaming
on Kafka
Direct
工作原理机制 2,
Spark
S...
赞
踩
article
【
Spark
MLlib
】(五)
随机
森林
(
Random
Forest
_
spark
随机
森林
项目...
随机
森林
就是构建多棵决策树投票,在构建多棵树过程中,引入
随机
性,一般体现在两个方面,一是每棵树使用的样本进行
随机
抽样,分...
赞
踩
article
大
数据
-计算引擎-
Spark
(一):概述【基于内存
的
大
数据
分析
引擎】【核心模块:
Spark
Core
...
Spark
是一种基于内存
的
快速、通用、可扩展
的
大
数据
分析
计算引擎。在之前
的
学习中,Hadoop
的
MapReduce...
赞
踩
article
大
数据
算法题(
flink
spark
sql
)_
flink
sql
练习题
...
1 求(event userid time)格式下不同event(比如浏览、点击、购买等行为)的pv uv。//最普通的...
赞
踩
article
Hadoop
生态简介,
Hive
、
Spark
、
HBase
等...
Hadoop
生态全景介绍,
Spark
、
Hive
、
HBase
等_hadoop生态hadoop生态 ...
赞
踩
相关标签
spark
大数据
分布式
scala
性能优化
big data
flink
实时数仓
离线数仓
标签体系
linux
SparkML
LightGBM
MML