spark job提交7

阿新 • • 發佈：2018-11-23

當task在executor上執行時最終會在taskrunner中呼叫execBackend.statusUpdate來向driver端傳送狀態更新
\spark-master\core\src\main\scala\org\apache\spark\executor\CoarseGrainedExecutorBackend.scala
直接呼叫driverRef.Send函式來發送訊息
  override def statusUpdate(taskId: Long, state: TaskState, data: ByteBuffer) {
    val msg = StatusUpdate(executorId, taskId, state, data)
    driver match {
      case Some(driverRef) => driverRef.send(msg)
      case None => logWarning(s"Drop $msg because has not yet connected to driver")
    }
  }
根據訊息機制，send傳送的訊息會在receive中處理
spark-master\core\src\main\scala\org\apache\spark\scheduler\cluster\CoarseGrainedSchedulerBackend.scala
    override def receive: PartialFunction[Any, Unit] = {
      case StatusUpdate(executorId, taskId, state, data) =>
#呼叫TaskScheduler中的statusupdate方法
        scheduler.statusUpdate(taskId, state, data.value)
        if (TaskState.isFinished(state)) {
          executorDataMap.get(executorId) match {
            case Some(executorInfo) =>
              executorInfo.freeCores += scheduler.CPUS_PER_TASK
              makeOffers(executorId)
            case None =>
              // Ignoring the update since we don't know about the executor.
              logWarning(s"Ignored task status update ($taskId state $state) " +
                s"from unknown executor with ID $executorId")
          }
        }
}

spark-master\core\src\main\scala\org\apache\spark\scheduler\TaskSchedulerImpl.scala
def statusUpdate(tid: Long, state: TaskState, serializedData: ByteBuffer) {
    var failedExecutor: Option[String] = None
    var reason: Option[ExecutorLossReason] = None
    synchronized {
      try {
        taskIdToTaskSetManager.get(tid) match {
          case Some(taskSet) =>
            if (state == TaskState.LOST) {
              // TaskState.LOST is only used by the deprecated Mesos fine-grained scheduling mode,
              // where each executor corresponds to a single task, so mark the executor as failed.
              val execId = taskIdToExecutorId.getOrElse(tid, throw new IllegalStateException(
                "taskIdToTaskSetManager.contains(tid) <=> taskIdToExecutorId.contains(tid)"))
              if (executorIdToRunningTaskIds.contains(execId)) {
                reason = Some(
                  SlaveLost(s"Task $tid was lost, so marking the executor as lost as well."))
                removeExecutor(execId, reason.get)
                failedExecutor = Some(execId)
              }
            }
#task執行成功時處理，呼叫taskResultGatter處理
            if (TaskState.isFinished(state)) {
              cleanupTaskState(tid)
              taskSet.removeRunningTask(tid)
              if (state == TaskState.FINISHED) {
                taskResultGetter.enqueueSuccessfulTask(taskSet, tid, serializedData)
              } else if (Set(TaskState.FAILED, TaskState.KILLED, TaskState.LOST).contains(state)) {
                taskResultGetter.enqueueFailedTask(taskSet, tid, state, serializedData)
              }
    }

spark-master\core\src\main\scala\org\apache\spark\scheduler\TaskResultGetter.scala
  def enqueueSuccessfulTask(
      taskSetManager: TaskSetManager,
      tid: Long,
      serializedData: ByteBuffer): Unit = {
    getTaskResultExecutor.execute(new Runnable {
      override def run(): Unit = Utils.logUncaughtExceptions {
        try {
#最終計算結果
          val (result, size) = serializer.get().deserialize[TaskResult[_]](serializedData) match {
            case directResult: DirectTaskResult[_] =>
              if (!taskSetManager.canFetchMoreResults(serializedData.limit())) {
                return
              }
              // deserialize "value" without holding any lock so that it won't block other threads.
              // We should call it here, so that when it's called again in
              // "TaskSetManager.handleSuccessfulTask", it does not need to deserialize the value.
              directResult.value(taskResultSerializer.get())
              (directResult, serializedData.limit())
#結果儲存在worker節點的blockmanager中
            case IndirectTaskResult(blockId, size) =>
              if (!taskSetManager.canFetchMoreResults(size)) {
                // dropped by executor if size is larger than maxResultSize
                sparkEnv.blockManager.master.removeBlock(blockId)
                return
              }
              logDebug("Fetching indirect task result for TID %s".format(tid))
              scheduler.handleTaskGettingResult(taskSetManager, tid)
#從遠端worker獲得結果
              val serializedTaskResult = sparkEnv.blockManager.getRemoteBytes(blockId)
              if (!serializedTaskResult.isDefined) {
                /* We won't be able to get the task result if the machine that ran the task failed
                 * between when the task ended and when we tried to fetch the result, or if the
                 * block manager had to flush the result. */
                scheduler.handleFailedTask(
                  taskSetManager, tid, TaskState.FINISHED, TaskResultLost)
                return
              }
#反序列化獲取的結果
              val deserializedResult = serializer.get().deserialize[DirectTaskResult[_]](
                serializedTaskResult.get.toByteBuffer)
              // force deserialization of referenced value
              deserializedResult.value(taskResultSerializer.get())
              sparkEnv.blockManager.master.removeBlock(blockId)
              (deserializedResult, size)
          }

#處理獲取到的結果
          scheduler.handleSuccessfulTask(taskSetManager, tid, result)
        } catch {
     
    })
  }
spark-master\core\src\main\scala\org\apache\spark\scheduler\TaskSchedulerImpl.scala
  def handleSuccessfulTask(
      taskSetManager: TaskSetManager,
      tid: Long,
      taskResult: DirectTaskResult[_]): Unit = synchronized {
#呼叫tasksetmanager的方法處理成功的task
    taskSetManager.handleSuccessfulTask(tid, taskResult)
  }

  def handleSuccessfulTask(tid: Long, result: DirectTaskResult[_]): Unit = {
#呼叫dagscheduler的taskend方法
    sched.dagScheduler.taskEnded(tasks(index), Success, result.value(), result.accumUpdates, info)
    maybeFinishTaskSet()
  }

spark-master\core\src\main\scala\org\apache\spark\scheduler\DAGScheduler.scala
  def taskEnded(
      task: Task[_],
      reason: TaskEndReason,
      result: Any,
      accumUpdates: Seq[AccumulatorV2[_, _]],
      taskInfo: TaskInfo): Unit = {
#通過post方法將CompletionEvent放到事件佇列中，會被同一個類中的OnReceive方法處理
    eventProcessLoop.post(
      CompletionEvent(task, reason, result, accumUpdates, taskInfo))
  }

  override def onReceive(event: DAGSchedulerEvent): Unit = {
    val timerContext = timer.time()
    try {
#呼叫doOnReceive繼續處理
      doOnReceive(event)
    } finally {
      timerContext.stop()
    }
  }
  private def doOnReceive(event: DAGSchedulerEvent): Unit = event match {
    case JobSubmitted(jobId, rdd, func, partitions, callSite, listener, properties) =>
      dagScheduler.handleJobSubmitted(jobId, rdd, func, partitions, callSite, listener, properties)
#處理前面的CompletionEvent時間，可見這裡是呼叫dagScheduler.handleTaskCompletion 來處理
    case completion: CompletionEvent =>
      dagScheduler.handleTaskCompletion(completion)
}

private[scheduler] def handleTaskCompletion(event: CompletionEvent) {



    event.reason match {
      case Success =>
        task match {
#處理ResultTask
          case rt: ResultTask[_, _] =>
            // Cast to ResultStage here because it's part of the ResultTask
            // TODO Refactor this out to a function that accepts a ResultStage
            val resultStage = stage.asInstanceOf[ResultStage]
            resultStage.activeJob match {
              case Some(job) =>
                if (!job.finished(rt.outputId)) {
                  job.finished(rt.outputId) = true
                  job.numFinished += 1
                  // If the whole job has finished, remove it
#判斷釋放所有的job 都已經處理完畢了
                  if (job.numFinished == job.numPartitions) {
                    markStageAsFinished(resultStage)
                    cleanupStateForJobAndIndependentStages(job)
                    listenerBus.post(
                      SparkListenerJobEnd(job.jobId, clock.getTimeMillis(), JobSucceeded))
                  }

                  // taskSucceeded runs some user code that might throw an exception. Make sure
                  // we are resilient against that.
                  try {
#通過jobwaiter，job處理完畢
                    job.listener.taskSucceeded(rt.outputId, event.result)
                  } catch {
                    case e: Exception =>
                      // TODO: Perhaps we want to mark the resultStage as failed?
                      job.listener.jobFailed(new SparkDriverExecutionException(e))
                  }
                }
              case None =>
                logInfo("Ignoring result from " + rt + " because its job has finished")
            }
#處理shuffleMaptask
          case smt: ShuffleMapTask =>
            val shuffleStage = stage.asInstanceOf[ShuffleMapStage]
            val status = event.result.asInstanceOf[MapStatus]
            val execId = status.location.executorId
            logDebug("ShuffleMapTask finished on " + execId)
            if (stageIdToStage(task.stageId).latestInfo.attemptNumber == task.stageAttemptId) {
              // This task was for the currently running attempt of the stage. Since the task
              // completed successfully from the perspective of the TaskSetManager, mark it as
              // no longer pending (the TaskSetManager may consider the task complete even
              // when the output needs to be ignored because the task's epoch is too small below.
              // In this case, when pending partitions is empty, there will still be missing
              // output locations, which will cause the DAGScheduler to resubmit the stage below.)
              shuffleStage.pendingPartitions -= task.partitionId
            }
       
   
  }

spark job提交7

當task在executor上執行時最終會在taskrunner中呼叫execBackend.statusUpdate來向driver端傳送狀態更新 \spark-master\core\src\main\scala\org\apache\spark\executor\CoarseGrained

spark job提交6

driver端呼叫launchTasks來向worker節點中的executor傳送啟動任務命令 spark-master\core\src\main\scala\org\apache\spark\scheduler\cluster\CoarseGrainedSchedulerBackend.s

Spark job 提交

Driver 側在任務提交的時候要完成以下幾個工作 RDD依賴分析，以生成DAG 根據DAG 將job 分割成多個 stage stage 一經確認，即生成相應的 task，將生成的task 分發到 Executor 執行提交的實現入口在SparkCont

spark job提交：spark-submit

一般化的引數： spark-submit \ --supervise #driver失敗時重啟 \ --name wordcount \ --master yarn-cluster \ --num-executors 100 \ --executor-m

spark job提交過程

Driver的任務提交過程 1、Driver程式的程式碼執行到action操作，觸發了SparkContext的runJob方法。 2、SparkContext呼叫DAGScheduler的runJob函式。 3、DAGScheduler把Job劃分s

[Spark Core] Spark Client Job 提交三級調度框架

bsp res track cati ive trac htm action 面向 0. 說明　　官方文檔 Job Scheduling 　　Spark 調度核心組件: DagScheduler TaskScheduler BackendScheduler

Spark 觸發Job提交

Spark 觸發Job提交更多資源 github: https://github.com/opensourceteams/spark-scala-maven csdn(彙總視訊線上看): https://blog.csdn.net/thinktothings/arti

使用REST API提交Apache Spark Job

使用REST API提交Apache Spark Job 使用Apache spark時，有時需要從群集外部按需觸發Spark作業。我們可以通過兩種方式在群集中提交Apache spark作業。 S

Spark Job Server 0.7.0部署和使用

##安裝Scala 在Scala官網下載合適的版本解壓到/usr/local/scala目錄下(目錄可隨意修改) 在linux下加入環境變數 export PATH="$PATH:/usr/scala/bin" 輸入scala檢查是否安裝成功 ##手

Spark啟動流程與job提交流程

Driver端首先啟動SparkSubmit程序，啟動後開始於Master進行通訊，此時建立了了一個非常重要的物件（SparkContext），接著向Master傳送任務資訊； Master接收到資訊後。開始資源排程，此時會和所有的Worker進行通訊，找到比較空閒的Worker，並通知Worker來取任務

Spark-利用SparkLauncher 類以JAVA API 程式設計的方式提交spark job

一.環境說明和使用軟體的版本說明: hadoop-version:hadoop-2.9.0.tar.gz spark-version:spark-2.2.0-bin-hadoop2.7.tgz java-version:jdk1.8.0_151 叢集環境：單機偽分散式環

利用spring-boot構建spark job作業提交服務

版本依賴 spark.version：2.1.0 hadoop.version：2.6.5 springboot-mybatis.version：1.1.1 springboot：1.5.10

Spark Job具體的物理執行

oca rds 物理 cer mapper shu cal compute 並發即使采用pipeline的方式，函數f對依賴的RDD中的數據集合的操作也會有兩種方式： 1.f(record)，f作用於集合的每一條記錄，每次只作用於一條記錄 2.f(records)，f一次

一個Spark job的生命歷程

war result onf blog 超過 lsit fde mark ensure 一個job的生命歷程 dagScheduler.runJob //（1） --> submitJob ( eventProcessLoop.post(JobSubmitted,

Spark（六）Spark任務提交方式和執行流程

sla handles 解析 nod 就會 clust 它的管理機 nag 一、Spark中的基本概念（1）Application：表示你的應用程序（2）Driver：表示main()函數，創建SparkContext。由SparkContext負責與Cluste

Spark job 部署模式

mys har clu exe 技術 fail emp pre exec 　　Spark job 的部署有兩種模式，Client && Cluster 　　spark-submit .. --deploy-mode client | cluster

【待補充】Spark 集群模式 && Spark Job 部署模式

啟動 nbsp -s .cn 一個 sos ref 說明 www 0. 說明　　Spark 集群模式 && Spark Job 部署模式 1. Spark 集群模式　　[ Local ]　　使用一個 JVM 模擬 Spark 集群　

spark複習筆記(7):sparkSQL

一、saprkSQL模組，使用類sql的方式訪問Hadoop，實現mr計算，底層使用的是rdd 　　1.hive　　　　　　//hadoop mr sql 　　2.phenoix　　　　//hbase上構建sql的互動過程　　該模組能在spark上執行sql語句　　3.Da

spark 作業提交

kafka-topics.sh --describe --zookeeper xxxxx:2181 --topic testkafka-run-class.sh kafka.tools.GetOffsetShell --topic test --broker-list xxxxxx:9092 --time -

大資料基礎之Spark（1）Spark Submit即Spark任務提交過程

Spark版本2.1.1 一 Spark Submit本地解析 1.1 現象提交命令： spark-submit --master local[10] --driver-memory 30g --class app.package.AppClass app-1

spark job提交7

相關推薦