搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
从前慢现在也慢
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
Filter实现登录后自动跳转目标url_filter 跳转到别的域名
2
高途 前端开发 校招 一面面经_高途前端面试
3
Python蓝桥杯真题——基础练习(一)_蓝桥杯python真题
4
TypeError [ERR_UNKNOWN_FILE_EXTENSION] [ERR_UNKNOWN_FILE_EXTENSION]: Unknown file extension “.json“_typeerror [err_unknown_file_extension]: unknown fi
5
HashSet的实现原理_说一下 hashset 的实现原理
6
c语言函数的值传递机制(swap函数怎么通过形参改变实参的值)_值传递进行变换
7
牛客算法周周练1补题_算法补题
8
【Spring Boot】快速上手SpringBoot_spring boot】快速上手springboot_高朗的博客-csdn博客
9
扒一扒传智播客深藏在背后的内幕_传智播客 贴吧
10
企业级应用场景中,LLM 的数据特性剖析及处理对策_llm实现数据分析
当前位置:
article
> 正文
Spark调优第一篇_executors 和 repartition
作者:从前慢现在也慢 | 2024-02-07 16:38:21
赞
踩
executors 和 repartition
最初级的早启动spark-shell时这些设置的
./bin/spark-submit \
--master yarn-cluster \
--num-executors 100 \
--executor-memory 6G \
--executor-cores 4 \
--driver-memory 1G \
--conf spark.default.parallelism=1000 \
--conf spark.storage.memoryFraction=0.5 \
--conf spark.shuffle.memoryFraction=0.3 \
通过spark的资源管理界面可以看到每个exceutors中cores和tasks的具体执行情况
很多时候在想集群申请了资源后通过这看到的executors的task和cores还是空闲的,数据基本分布在少量的executor上
那么两点:
1,确实只用了少量的资源最初申请的资源浪费了
2,这个页面是随着stage的运行动态刷新的意味着每个excecutors上的分配的数据执行完后就显示空闲了比如我这个截图(实际任务执行的飞起!!!)
剩下的纯属猜测了
对数据repartition之后如果是大于excecutors的数量,则会排队分配给executors执行比如repartition(300),executors:30,则driver先把
数据拿30分分给executors,等这些数据处理完了再分配新的数据。
所以repartition分的少于excecutors不行不能少而且太少好会出
Size exceeds Integer.MAX_VALUE
的错误
如果分的比较少executors的内存hold不住要计算的数据所以OOM了
如果分的太多意味着executors要反复执行,效率会降低。(但是感觉只要executors不是闲置了,基本不会有影响)
基本是在YY
最后
补充一下调参的方式除了在spark-shell启动时加在后面还可以
修改配置文件(不提倡):
SPARK配置参数的两个地方:
1. $SPARK_HOME/conf/spark-env.sh 脚本上配置。 配置格式如下:
export SPARK_DAEMON_MEMORY=1024m
感觉spark_default.xml中也有相关参数的配置
2. 编程的方式(程序中在创建SparkContext之前,使用System.setProperty(“xx”,“xxx”)语句设置相应系统属性值),即在spark-shell下配置
如:
scala> System.setProperty("spark.akka.frameSize","10240m")
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/66427
推荐阅读
article
Apache
Spark
的
基本概念
和在大
数据分析
中
的
应用...
此外,
Spark
提供了丰富
的
编程接口(如 Scala、Java、Python 和 R),可以方便地进行开发和调试。因此...
赞
踩
article
SpringBoot
使用
Spark
_springboot
spark
...
SpringBoot
使用
Spark
_springboot
spark
springboot
spark
...
赞
踩
article
SpringBoot
项目
实战演练(三)_
springboot
使用
executors
.newsch...
SpringBoot
多线程模拟高并发首先还是看一下
项目
目录:
项目
架构首先是在demo包下创建一个config层,主要是对...
赞
踩
article
SpringBoot
-
并发
执行
定时
任务配置_
taskregistrar
.
setscheduler
(e...
@Configurationpublic class ScheduleConfig implements Schedul...
赞
踩
article
spark
python
pickle
对象_
cPickle
.
PicklingError
:无法序列化对...
py
spark
_1|19/10/2510:23:03INFOSparkContext:Createdbroadcast1...
赞
踩
article
Spark
Streaming
简介_4.使用
flume
作为
spark
streaming
数据源
,统...
1. 流计算概述1.1 流计算简介数据仓库中存放的大量历史数据就是静态数据,可以利用数据挖掘和OLAP分析工具从静态数据...
赞
踩
相关标签
spark
数据分析
大数据
spring boot
java
多线程
高并发
并发编程
定时任务
线程池
spark python pickle对象