spark1.3 资源调度
1、判断当前是否为alive master ,不是直接返回
2、取状态为alive的 worker 并随机打乱
3、首先调度Driver-- yarn-cluster模式下会执行
3.1 当前Driver还没启动的话 ,遍历所有活着的worker
3.2 若这个worker空闲内存 >= Driver需要的内存 并且 worker的空闲cpu数量 >= Driver需要的cpu数量 则 启动Driver
并将Driver从waitingDrivers队列移除
3.2.1 启动driver:
将Driver加入 worker的缓存
将worker内使用的内存 和 cpu数量 都加上Driver需要的内存和cpu数量
把worker放入Driver的缓存中--相互引用
调用worker的actor 给他发送lunchDriver消息 让worker启动Driver 将Driver状态设置为 running
4、application 调度
两种调度算法: spreadoutApps 和 非 spreadoutApps 之后的版本对此有调整
4.1 默认spreadoutApps----------将 要启动的executor平均分配到各个worker上去
4.1.1 遍历waitingApps 中的 application
4.1.1.1 从workers中 过滤出状态为alive的 ,
再次过滤出可以被app使用的worker(之前没有启动过executor 且剩余内存大于 可以启动的一个executor内存)
然后按照剩余cpu数量倒序排列
4.1.1.2 创建一个空数组 存储了要分配给每个worker的cpu数量
4.1.1.3 获取到底要分配多少cpu 取app剩余要分配的cpu数量和 worker总共可用数量的最小值
4.1.1.4 遍历可以分配的worker 若还有可以分配的cpu 分配cpu
4.1.1.5 遍历worker 只要上面给worker分配了core 就在这个worker上启动executor
--- 在application缓存中添加 executor 创建executor对象
4.1 非spreadoutApps----------将每个app 分配到尽可能少的worker上去
相关推荐
spark-3.1.2.tgz版本 & spark-3.1.2-bin-hadoop2.7.tgz版本
本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载,本资源是spark-2.0.0-bin-hadoop2.6.tgz百度网盘资源下载
Apache Spark版本3.1.3。Linux安装包。spark-3.1.3-bin-hadoop3.2.tgz
Spark Doris Connector(apache-doris-spark-connector-2.3_2.11-1.0.1-incubating-src.tar.gz) Spark Doris Connector Version:1.0.1 Spark Version:2.x Scala Version:2.11 Apache Doris是一个现代MPP分析...
Spark安装包:spark-3.1.3-bin-without-hadoop.tgz
spark-3.2.0-bin-hadoop3.2.tgz
内容概要:由于cdh6.3.2的spark版本为2.4.0,并且spark-sql被阉割,现基于cdh6.3.2,scala2.12.0,java1.8,maven3.6.3,,对spark-3.2.2源码进行编译 应用:该资源可用于cdh6.3.2集群配置spark客户端,用于spark-sql
spark-hive_2.11-2.3.0 spark-hive-thriftserver_2.11-2.3.0.jar log4j-2.15.0.jar slf4j-api-1.7.7.jar slf4j-log4j12-1.7.25.jar curator-client-2.4.0.jar curator-framework-2.4.0.jar curator-recipes-2.4.0....
spark-3.0.0-bin-hadoop3.2下载安装包
pyspark本地的环境配置包,spark-2.3.4-bin-hadoop2.7.tgz:spark-2.3.4-bin-hadoop2.7.tgz
spark-3.2.4-bin-hadoop3.2-scala2.13 安装包
这是每个学习spark必备的jar包,是根据我的个人试验后所得,官网正版,在spark官网下载。 资源包里不仅有需要的jar包,并且给不会再官网上下载的新手官方网址,可以自由下载资源
linux的spark新版本,匹配hadoop2.7版本,spark-3.2.1-bin-hadoop2.7.tgz
spark-3.2.0-bin-hadoop3-without-hive
spark-streaming-flume_2.11-2.1.0.jar
在Ubuntu里安装spark,spark-2.1.0-bin-without-hadoop该版本直接下载到本地后解压即可使用。 Apache Spark 是一种用于大数据工作负载的分布式开源处理系统。它使用内存中缓存和优化的查询执行方式,可针对任何规模...
spark-3.2.1-bin-hadoop3.2-scala2.13.tgz
文件名: spark-3.4.1-bin-hadoop3.tgz 这是 Apache Spark 3.4.1 版本的二进制文件,专为与 Hadoop 3 配合使用而设计。Spark 是一种快速、通用的集群计算系统,用于大规模数据处理。这个文件包含了所有必要的组件,...
Spark Doris Connector(apache-doris-spark-connector-3.1_2.12-1.0.1-incubating-src.tar.gz) Spark Doris Connector Version:1.0.1 Spark Version:3.x Scala Version:2.12 Apache Doris是一个现代MPP分析...
spark-2.4.0-bin-hadoop2.7