spark-学习笔记--23 DAGScheduler 的stage划分

05rjyzl11

浏览: 142099 次
性别:
来自: 北京

最近访客更多访客>>

breezylee

laopo521anping

wolfwell

gzjhqh

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

spark

DAGScheduler 的stage划分

    /**  org.apache.spark.scheduler.DAGScheduler 中的 submitStage
	*   提交stage, 先提交缺失的父stage
	*/
  private def submitStage(stage: Stage) {
    val jobId = activeJobForStage(stage)
    if (jobId.isDefined) {
      logDebug("submitStage(" + stage + ")")
      if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) {
        val missing = getMissingParentStages(stage).sortBy(_.id)  //注意这里
        logDebug("missing: " + missing)
        if (missing.isEmpty) {// 所有的父stage都提交完了 再提交自己
          logInfo("Submitting " + stage + " (" + stage.rdd + "), which has no missing parents")
          submitMissingTasks(stage, jobId.get)
        } else {
          for (parent <- missing) {
            submitStage(parent)//注意这里
          }
          waitingStages += stage
        }
      }
    } else {
      abortStage(stage, "No active job for stage " + stage.id, None)
    }
  }

  private def getMissingParentStages(stage: Stage): List[Stage] = {
    val missing = new HashSet[Stage]
    val visited = new HashSet[RDD[_]]
    // We are manually maintaining a stack here to prevent StackOverflowError
    // caused by recursively visiting
    val waitingForVisit = new Stack[RDD[_]]
    def visit(rdd: RDD[_]) {
      if (!visited(rdd)) {
        visited += rdd
        val rddHasUncachedPartitions = getCacheLocs(rdd).contains(Nil)
        if (rddHasUncachedPartitions) {
          for (dep <- rdd.dependencies) {
            dep match {
              case shufDep: ShuffleDependency[_, _, _] => //注意shufDep宽依赖会产生新的stage
                val mapStage = getShuffleMapStage(shufDep, stage.firstJobId)
                if (!mapStage.isAvailable) {
                  missing += mapStage
                }
              case narrowDep: NarrowDependency[_] =>      //注意这里  narrowDep 
                waitingForVisit.push(narrowDep.rdd)
            }
          }
        }
      }
    }
    waitingForVisit.push(stage.rdd)
    while (waitingForVisit.nonEmpty) {
      visit(waitingForVisit.pop())
    }
    missing.toList
  }

分享到：

spark-学习笔记--24 TaskScheduler | spark-学习笔记--22 RDD 转换为 DataFrame ...

2018-11-28 16:34
浏览 679
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark-学习笔记--23 DAGScheduler 的stage划分

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark-学习笔记--23 DAGScheduler 的stage划分

评论

发表评论

相关推荐

spark-学习笔记--31 spark性能优化

spark-学习笔记--30 BlockManager 一

spark-学习笔记--29 shuffle2

spark-学习笔记--28 shuffle

spark-学习笔记--27 Task 源码

spark-学习笔记--26 task 的执行

spark-学习笔记--25 executor

spark-学习笔记--24 TaskScheduler

spark-学习笔记--22 RDD 转换为 DataFrame--使用编程接口

spark-学习笔记--21 RDD 转换为 DataFrame--使用反射

spark-学习笔记--20 spark SQL入门

spark-学习笔记--19 stage划分

spark-学习笔记--18 spark1.3 worker解析

spark-学习笔记--17 spark1.3 资源调度

spark-学习笔记--16 spark1.3 状态改变

spark-学习笔记--15 master注册机制

spark-学习笔记--14 master的主备切换

Spark-学习笔记--13 spark1.3 SparkContext执行过程

Spark-学习笔记--12 宽依赖与窄依赖

Spark-学习笔记--11 yarn提交模式

最近访客更多访客>>