【Spark-core學習之六】 Spark資源調度和任務調度
環境
虛擬機:VMware 10
Linux版本:CentOS-6.5-x86_64
客戶端:Xshell4
FTP:Xftp4
jdk1.8
scala-2.10.4(依賴jdk1.8)
spark-1.6
一、Spark資源調度和任務調度
1、Spark資源調度和任務調度的流程
啟動集群後,Worker節點會向Master節點匯報資源情況,Master掌握了集群資源情況。當Spark提交一個Application後,根據RDD之間的依賴關系將Application形成一個DAG有向無環圖。任務提交後,Spark會在Driver端創建兩個對象:DAGScheduler和TaskScheduler,DAGScheduler是任務調度的高層調度器,是一個對象。DAGScheduler的主要作用就是將DAG根據RDD之間的寬窄依賴關系劃分為一個個的Stage,然後將這些Stage以TaskSet的形式提交給TaskScheduler(TaskScheduler是任務調度的低層調度器,這裏TaskSet其實就是一個集合,裏面封裝的就是一個個的task任務,也就是stage中的並行度task任務),TaskSchedule會遍歷TaskSet集合,拿到每個task後會將task發送到計算節點Executor中去執行(其實就是發送到Executor中的線程池ThreadPool去執行)。task在Executor線程池中的運行情況會向TaskScheduler反饋,當task執行失敗時,則由TaskScheduler負責重試,將task重新發送給Executor去執行,默認重試3次。如果重試3次依然失敗,那麽這個task所在的stage就失敗了。stage失敗了則由DAGScheduler來負責重試,重新發送TaskSet到TaskSchdeuler,Stage默認重試4次。如果重試4次以後依然失敗,那麽這個job就失敗了。job失敗了,Application就失敗了。
註意:
(1) 對於ETL類型要入數據庫的業務要關閉推測執行機制,這樣就不會有重復的數據入庫。
(2)如果遇到數據傾斜的情況,開啟推測執行則有可能導致一直會有task重新啟動處理相同的邏輯,任務可能一直處於處理不完的狀態。
2、圖解Spark資源調度和任務調度的流程
3、粗粒度資源申請和細粒度資源申請
(3.1)粗粒度資源申請(Spark)
在Application執行之前,將所有的資源申請完畢,當資源申請成功後,才會進行任務的調度,當所有的task執行完成後,才會釋放這部分資源。
優點:在Application執行之前,所有的資源都申請完畢,每一個task直接使用資源就可以了,不需要task在執行前自己去申請資源,task啟動就快了,task執行快了,stage執行就快了,job就快了,application執行就快了。
缺點:直到最後一個task執行完成才會釋放資源,集群的資源無法充分利用。
(3.2)細粒度資源申請(MapReduce)
優點:集群的資源可以充分利用。
缺點:task自己去申請資源,task啟動變慢,Application的運行就相應的變慢了。
二、資源調度和任務調度源碼
參考:
Spark
【Spark-core學習之六】 Spark資源調度和任務調度