spark partition、task、core、worker、excutor數量梳理

阿新 • • 發佈：2018-11-08

輸入可能以多個檔案的形式儲存在HDFS上，每個File都包含了很多塊，稱為Block。
當Spark讀取這些檔案作為輸入時，會根據具體資料格式對應的InputFormat進行解析，一般是將若干個Block合併成一個輸入分片，稱為InputSplit，注意InputSplit不能跨越檔案。
隨後將為這些輸入分片生成具體的Task。InputSplit與Task是一一對應的關係。
隨後這些具體的Task每個都會被分配到叢集上的某個節點的某個Executor去執行。

每個節點可以起一個或多個Executor。
每個Executor由若干core組成，每個Executor的每個core一次只能執行一個

Task。
每個Task執行的結果就是生成了目標RDD的一個partiton。

注意: 這裡的core是虛擬的core而不是機器的物理CPU核，可以理解為就是Executor的一個工作執行緒。

而 Task被執行的併發度 = Executor數目 * 每個Executor核數。

至於partition的數目：

對於資料讀入階段，例如sc.textFile，輸入檔案被劃分為多少InputSplit就會需要多少初始Task。
在Map階段partition數目保持不變。
在Reduce階段，RDD的聚合會觸發shuffle操作，聚合後的RDD的partition數目跟具體操作有關，例如repartition操作會聚合成指定分割槽數，還有一些運算元是可配置的。

RDD在計算的時候，每個分割槽都會起一個task，所以rdd的分割槽數目決定了總的的task數目。
申請的計算節點（Executor）數目和每個計算節點核數，決定了你同一時刻可以並行執行的task。
比如的RDD有100個分割槽，那麼計算的時候就會生成100個task，你的資源配置為10個計算節點，每個兩2個核，同一時刻可以並行的task數目為20，計算這個RDD就需要5個輪次。
如果計算資源不變，你有101個task的話，就需要6個輪次，在最後一輪中，只有一個task在執行，其餘核都在空轉。
如果資源不變，你的RDD只有2個分割槽，那麼同一時刻只有2個task執行，其餘18個核空轉，造成資源浪費。這就是在spark調優中，增大RDD分割槽數目，增大任務並行度的做法。

spark partition、task、core、worker、excutor數量梳理

spark分割槽數,task數目,core數,worker節點個數,excutor數量梳理

spark partition、task、core、worker、excutor數量梳理

spark分區數,task數目,core數,worker節點個數,excutor數量梳理

Spark任務中如何確定spark分割槽數、task數目、core數、worker節點個數、excutor數量

Spark ：Master、Worker、Driver、Executor工作流程詳解

TaskScheduler內幕天機：Spark shell案例，TaskScheduler和SchedulerBackend、FIFO與FAIR、Task執行時本地性演算法詳解

【Asp.Net Core】一、Visual Studio 2015 和 .NET Core 安裝

一、Instrument之Core Animation工具

.NET Core protobuf-net、MessagePack、Json.NET序列化/反序列化性能測試

.NET Core RSA密鑰的xml、pkcs1、pkcs8格式轉換和JavaScript、Java等語言進行對接

EF Core的安裝、EF Core與數據庫結合

大數據入門第二十二天——spark（三）自定義分區、排序與查找

Linux生成core文件、core文件路徑設置

Spark Executor內幕徹底解密：Executor工作原理圖、ExecutorBackend註冊源碼解密、Executor實例化內幕、Executor具體工作內幕

httpd的prefork、worker、event

那些年我們一起追逐的多線程(Thread、ThreadPool、委托異步調用、Task/TaskFactory、Parallerl、async和await)

騰訊雲(Linux)安裝.net core sdk2.1、net core runtime2.1

C#非同步多執行緒總結（delegate、Thread、Task、ThreadPool、Parallel、async、cancel）

ASP.NET Core 入門教程 6、ASP.NET Core MVC 檢視佈局入門

.net core 快取技術、記憶體快取本人親測

spark partition、task、core、worker、excutor數量梳理

相關推薦