spark-学习笔记--17 spark1.3 资源调度 - 杨中磊的博客 - ITeye博客

`

05rjyzl11

浏览: 142096 次
性别:
来自: 北京

最近访客更多访客>>

breezylee

laopo521anping

wolfwell

gzjhqh

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

isaiah282485068：怎么不出书出来啊，市场上好却这方面的书啊
mule in action翻译1 : 第一部分 mule 核心

spark-学习笔记--17 spark1.3 资源调度

博客分类：

spark

阅读更多

spark1.3 资源调度

1、判断当前是否为alive master ，不是直接返回

2、取状态为alive的 worker 并随机打乱

3、首先调度Driver-- yarn-cluster模式下会执行

3.1 当前Driver还没启动的话，遍历所有活着的worker

3.2 若这个worker空闲内存 >= Driver需要的内存并且 worker的空闲cpu数量 >= Driver需要的cpu数量则启动Driver

并将Driver从waitingDrivers队列移除

3.2.1 启动driver：

将Driver加入 worker的缓存

将worker内使用的内存和 cpu数量都加上Driver需要的内存和cpu数量

把worker放入Driver的缓存中--相互引用

调用worker的actor 给他发送lunchDriver消息让worker启动Driver 将Driver状态设置为 running

4、application 调度

两种调度算法： spreadoutApps 和非 spreadoutApps 之后的版本对此有调整

4.1 默认spreadoutApps----------将要启动的executor平均分配到各个worker上去

4.1.1 遍历waitingApps 中的 application

4.1.1.1 从workers中过滤出状态为alive的，

再次过滤出可以被app使用的worker（之前没有启动过executor 且剩余内存大于可以启动的一个executor内存）

然后按照剩余cpu数量倒序排列

4.1.1.2 创建一个空数组存储了要分配给每个worker的cpu数量

4.1.1.3 获取到底要分配多少cpu 取app剩余要分配的cpu数量和 worker总共可用数量的最小值

4.1.1.4 遍历可以分配的worker 若还有可以分配的cpu 分配cpu

4.1.1.5 遍历worker 只要上面给worker分配了core 就在这个worker上启动executor

--- 在application缓存中添加 executor 创建executor对象

4.1 非spreadoutApps----------将每个app 分配到尽可能少的worker上去

分享到：

spark-学习笔记--18 spark1.3 worker解析 | spark-学习笔记--16 spark1.3 状态改变

2018-11-06 14:39
浏览 313
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

spark-3.1.2.tgz & spark-3.1.2-bin-hadoop2.7.tgz.rar: spark-3.1.2.tgz版本 & spark-3.1.2-bin-hadoop2.7.tgz版本

spark-2.0.0-bin-hadoop2.6.tgz: 本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载,本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载

spark-3.1.3-bin-hadoop3.2.tgz: Apache Spark版本3.1.3。Linux安装包。spark-3.1.3-bin-hadoop3.2.tgz

apache-doris-spark-connector-2.3_2.11-1.0.1: Spark Doris Connector（apache-doris-spark-connector-2.3_2.11-1.0.1-incubating-src.tar.gz） Spark Doris Connector Version：1.0.1 Spark Version：2.x Scala Version：2.11 Apache Doris是一个现代MPP分析...

spark-3.1.3-bin-without-hadoop.tgz: Spark安装包：spark-3.1.3-bin-without-hadoop.tgz

spark-3.2.0-bin-hadoop3.2.tgz: spark-3.2.0-bin-hadoop3.2.tgz

spark-3.2.2-bin-3.0.0-cdh6.3.2: 内容概要：由于cdh6.3.2的spark版本为2.4.0，并且spark-sql被阉割，现基于cdh6.3.2，scala2.12.0，java1.8，maven3.6.3，,对spark-3.2.2源码进行编译应用：该资源可用于cdh6.3.2集群配置spark客户端，用于spark-sql

编译的spark-hive_2.11-2.3.0和 spark-hive-thriftserver_2.11-2.3.0.jar: spark-hive_2.11-2.3.0 spark-hive-thriftserver_2.11-2.3.0.jar log4j-2.15.0.jar slf4j-api-1.7.7.jar slf4j-log4j12-1.7.25.jar curator-client-2.4.0.jar curator-framework-2.4.0.jar curator-recipes-2.4.0....

spark-3.0.0-bin-hadoop3.2: spark-3.0.0-bin-hadoop3.2下载安装包

spark-2.3.4-bin-hadoop2.7.tgz: pyspark本地的环境配置包，spark-2.3.4-bin-hadoop2.7.tgz：spark-2.3.4-bin-hadoop2.7.tgz

spark-3.2.4-bin-hadoop3.2-scala2.13 安装包: spark-3.2.4-bin-hadoop3.2-scala2.13 安装包

spark-hive-2.11和spark-sql-以及spark-hadoop包另付下载地址: 这是每个学习spark必备的jar包，是根据我的个人试验后所得，官网正版，在spark官网下载。资源包里不仅有需要的jar包，并且给不会再官网上下载的新手官方网址，可以自由下载资源

spark-3.2.1-bin-hadoop2.7.tgz: linux的spark新版本，匹配hadoop2.7版本，spark-3.2.1-bin-hadoop2.7.tgz

spark-3.2.0-bin-hadoop3-without-hive: spark-3.2.0-bin-hadoop3-without-hive

spark-streaming-flume_2.11-2.1.0.jar: spark-streaming-flume_2.11-2.1.0.jar

spark-2.1.0-bin-without-hadoop版本的压缩包，直接下载到本地解压后即可使用: 在Ubuntu里安装spark，spark-2.1.0-bin-without-hadoop该版本直接下载到本地后解压即可使用。 Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式，可针对任何规模...

spark-3.2.1 安装包下载 hadoop3.2: spark-3.2.1-bin-hadoop3.2-scala2.13.tgz

spark-3.4.1-bin-hadoop3.tgz - Spark 3.4.1 安装包(内置了Hadoop 3): 文件名: spark-3.4.1-bin-hadoop3.tgz 这是 Apache Spark 3.4.1 版本的二进制文件，专为与 Hadoop 3 配合使用而设计。Spark 是一种快速、通用的集群计算系统，用于大规模数据处理。这个文件包含了所有必要的组件，...

apache-doris-spark-connector-3.1_2.12-1.0.1: Spark Doris Connector（apache-doris-spark-connector-3.1_2.12-1.0.1-incubating-src.tar.gz） Spark Doris Connector Version：1.0.1 Spark Version：3.x Scala Version：2.12 Apache Doris是一个现代MPP分析...

spark-2.4.0-bin-hadoop2.7.tgz: spark-2.4.0-bin-hadoop2.7

Global site tag (gtag.js) - Google Analytics