Spark中Task數量的分析

阿新 • • 發佈：2020-02-29

本文主要說一下Spark中Task相關概念、RDD計算時Task的數量、Spark Streaming計算時Task的數量。

Task作為Spark作業執行的最小單位，Task的數量及執行快慢間接決定了作業執行的快慢。

開始

先說明一下Spark作業的幾個核心概念：

Job(作業)：Spark根據行動操作觸發提交作業，以行動操作將我們的程式碼切分為多個Job。

Stage(排程階段)：每個Job中，又會根據寬依賴將Job劃分為多個Stage(包括ShuffleMapStage和ResultStage)。

Task(任務)：真正執行計算的部分。Stage相當於TaskSet，每個Stage內部包含了多個Task，將各個Task下發到各個Executor執行計算。

每個Task的處理邏輯完全一樣，不同的是對應處理的資料。即：移動計算而不是移動資料。

Partition(分割槽)：這個是針對RDD而言的，RDD內部維護了分割槽列表，表示資料在叢集中存放的不同位置。

Job、Stage、Task的對應關係如下：

Task是真正幹活的，所以說是它間接決定了Spark程式的快慢也不過分。

再看看Spark任務提交時的幾個相關配置：

num-executors：配置執行任務的Executor的數量。

executor-cores：每個Executor的核的數量。此核非彼核，它不是機器的CPU核，可以理解為Executor的一個執行緒。

每個核同時只可以執行一個Task。

也就是說一個Spark應用同時執行的任務數 = 用於執行任務的Executor數 * 每個Executor的核數。

spark.executor.memory：每個Executor的記憶體大小。

spark.default.parallelism：RDD的預設分割槽數。

在我們沒有指定這個引數的前提下，如果是shuffle操作，這個值預設是父RDD中分割槽數較大的那個值；如果是普通操作，這個值的預設大小取決於叢集管理器(YARN, Local這些)。

以YARN為例，如果我們沒有指定，它的大小就是所有用於執行任務的Executor核的總數。

spark.sql.shuffle.partitions

：這個配置是針對於Spark SQL在shuffle時的預設分割槽數。預設值是200。只對Spark SQL起作用。

RDD計算時Task的數量

在基於RDD計算時，Task的數量 = RDD的分割槽數。

所以調整RDD分割槽的數量就可以變相的調整Task的數量。

所以當RDD計算跑的很慢時，可以通過適當的調整RDD分割槽數來實現提速。

看看Spark.parallelize生成RDD時的原始碼實現：

def parallelize[T: ClassTag](
    seq: Seq[T],
    numSlices: Int = defaultParallelism): RDD[T] = withScope {
    assertNotStopped()
        new ParallelCollectionRDD[T](this, seq, numSlices, Map[Int, Seq[String]]())
}

// 這裡的taskScheduler.defaultParallelism就是
// 取的配值中spark.default.parallelism的值。
def defaultParallelism: Int = {
    assertNotStopped()
        taskScheduler.defaultParallelism
}

可以發現通過Spark.parallelize建立的RDD分割槽，如果我們不指定分割槽數，那麼分割槽數就是由配置的spark.default.parallelism來決定。

Spark讀Hive、HDFS時的Task數量

這塊之後補上來。。。

Spark Streaming流處理時的Task數量

Spark Streaming作為Spark中用於流處理的一員，它的原理就是執行一個接收器接收資料，然後將接收的資料按塊進行儲存，之後劃分Job，執行Task處理資料。

ok，Spark Streaming最後也會轉換成Task進行資料的處理，也就是Task執行速度也會影響它處理資料的速度。

Spark Streaming中Task的數量是由用來儲存接收到資料的Block數來決定的。

那麼只要控制Block的數量就可以控制Task的數量。

如下程式碼所示，Block是由一個定時器定時生成的。

// 塊生成間隔時間
private val blockIntervalMs = conf.getTimeAsMs("spark.streaming.blockInterval", "200ms")
// 一個定時器，按塊生成間隔時間定時根據接收到的資料生成塊。
private val blockIntervalTimer = new RecurringTimer(clock, blockIntervalMs, updateCurrentBuffer, "BlockGenerator")

所以Block的數量 = 批處理間隔時間 / 塊生成間隔時間。

塊生成間隔時間是由配置spark.streaming.blockInterval決定的，預設是200ms，最小是50ms。

所以當Spark Streaming的Task數量成為效能的瓶頸時，可以通過調整引數來調整Task的數量。

總結

1、Task是Spark的最小執行單位，Executor每個核同時只能執行一個Task。

2、RDD計算時，Task數量與分割槽數對應；Spark Streaming中，Task數量由Block數決定。

3、根據分配的資源以及作業的執行情況，適當調整Task數量。

4、移動計算而不是移動資料。

end. 個人理解，如果偏差歡迎指正。

個人公眾號：碼農峰，定時推送行業資訊，持續釋出原創技術文章，歡迎大家關注

Spark中Task數量的分析

本文主要說一下Spark中Task相關概念、RDD計算時Task的數量、Spark Streaming計算時Task的數量。 Task作為Spark作業執行的最小單位，Task的數量及執行快慢間接決定了作業執行的快慢。開始先說明一下Spark作業的幾個核心概念： Job(作業)：Spark根據行動操

Spark之Task原理分析

finish lease finall .com 反序 eap wrap setresult add 在Spark中，一個應用程序要想被執行，肯定要經過以下的步驟：從這個路線得知，最終一個job是依賴於分布在集群不同節點中的task，通過並行或者並發的運

Spark：Task原理分析

在Spark中，一個應用程式要想被執行，肯定要經過以下的步驟：從這個路線得知，最終一個job是依賴於分佈在叢集不同節點中的task，通過並行或者併發的執行來完成真正的工作。由此可見，一個個的分散式的task才是Spark的真正執行者。下面先來張task

Spark中Task，Partition，RDD、節點數、Executor數、core數目的關係和Application，Driver，Job，Task，Stage理解

梳理一下Spark中關於併發度涉及的幾個概念File，Block，Split，Task，Partition，RDD以及節點數、Executor數、core數目的關係。輸入可能以多個檔案的形式儲存在HDFS上，每個File都包含了很多塊，稱為Block。當Spar

Spark源代碼分析之六：Task調度（二）

oge 3.4 總結 utili filter 相關 .com ram 順序話說在《Spark源代碼分析之五：Task調度（一）》一文中，我們對Task調度分析到了DriverEndpoint的makeOffers()方法。這種方法針對接收到的Re

【Spark篇】---Spark中資源調度源碼分析與應用

部分 app post 類名 inf master 執行過程 efault spark 一、前述 Spark中資源調度是一個非常核心的模塊，尤其對於我們提交參數來說，需要具體到某些配置，所以提交配置的參數於源碼一一對應，掌握此節對於Spark在任務執行過程中的資源分配會更上

統計日誌檔案中訪問數量，Spark中加強版WordCount

寫在前面學習Scala和Spark基本語法比較枯燥無味，搞搞簡單的實際運用可以有效的加深你對基本知識點的記憶，前面我們完成了最基本的WordCount功能的http://blog.csdn.net/whzhaochao/article/details/72358215，這篇主

spark中job stage task關係

1.1 例子，美國 1880 － 2014 年新生嬰兒資料統計目標：用美國 1880 － 2014 年新生嬰兒的資料來做做簡單的統計資料格式：每年的新生嬰兒資料在一個檔案裡面每個檔案的每一條資料格式：姓名,性別,新生人數 1.2 執行流程概覽上面

Spark2.3（三十五）Spark Structured Streaming原始碼剖析(從CSDN中看到別人分析的原始碼的文章值得收藏)

從CSDN中讀取到關於spark structured streaming原始碼分析不錯的幾篇文章 spark原始碼分析--事件匯流排LiveListenerBus spark事件匯流排的核心是LiveListenerBus，其內部維護了多個AsyncEventQueue佇列用於儲存和分發

Spark 中如何設定executor個數以及task並行度

一.指定spark executor 數量的公式 executor 數量 = spark.cores.max/spark.executor.cores spark.cores.max 是指你的spark程式需要的總核數 spark.exec

Spark整合Kafka原始碼分析——SparkStreaming從kafak中接收資料

整體概括：要實現SparkStreaming從kafak中接收資料分為以下幾步(其中涉及的類在包org.apache.spark.streaming.kafka中)： 1.建立createStream()函式，返回型別為ReceiverInputDStream物件，在cre

結合原始碼分析Spark中的Accuracy(準確率), Precision(精確率), 和F1-Measure

例子某大學一個系，總共100人，其中男90人，女10人，現在根據每個人的特徵，預測性別 Accuracy(準確率) Accuracy=預測正確的數量需要預測的總數計算由於我知道男生遠多於女生，所以我完全無視特徵，直接預測所有人都是

org.apache.spark.SparkException: Task not serializable問題分析

問題描述及原因分析在編寫Spark程式中，由於在map等運算元內部使用了外部定義的變數和函式，從而引發Task未序列化問題。然而，Spark運算元在計算過程中使用外部變數在許多情形下確實在所難免，比如在filter運算元根據外部指定的條件進行過濾，ma

spark中executor執行Driver傳送的task，放入執行緒池中執行原理

import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; public class ThreadPool { public static void main(

Spark 中關於Parquet的應用與性能初步測試

spark 大數據 hadoop hive parquetSpark 中關於Parquet的應用Parquet簡介 Parquet是面向分析型業務的列式存儲格式，由Twitter和Cloudera合作開發，2015年5月從Apache的孵化器裏畢業成為Apache頂級項目http://parquet.apa

SD從零開始67-70 後勤信息系統中的標準分析, 信息結構, 信息的更新規則, 建立統計數據

str 類型計數移動菜單生成 porting 詳細信息更換 SD從零開始67 後勤信息系統中的標準分析標準分析中的報表Reporting in Standard Analyses 標準分析為高質量的表達和分析LIS中的數據基礎提供了大量的功能；當

Tarjan中棧的分析與SLT棧的實現

般的 col 評論 while spa tarjan 棧的實現 class 當前首先看一下手寫的棧： 1 do{ 2 printf("%d ",stack[index]); 3 visit[stack[index]]=0; 4 inde

Spark中經常使用工具類Utils的簡明介紹

run max news register 令行刪除 exist bstr chan 《深入理解Spark：核心思想與源代碼分析》一書前言的內容請看鏈接《深入理解SPARK：核心思想與源代碼分析》一書正式出版上市《深入理解Spark：核心思想與源代碼分析》

uboot中rtc頂層分析

number ssi clas software printf one int lar app uboot一般不會要求開啟rtc，只是還是支持rtc以備特殊需求的。底層驅動移植前面兩篇已經介紹。這裏介紹頂層的調用過程。頂層在uboot/common/cm

【轉載】Spark學習——spark中的幾個概念的理解及參數配置

program submit man 聯眾 tail 進行 orb 數據源 work 首先是一張Spark的部署圖：節點類型有： 1. master 節點：常駐master進程，負責管理全部worker節點。2. worker 節點：常駐worker進程，負責管理

Spark中Task數量的分析

開始

RDD計算時Task的數量

Spark讀Hive、HDFS時的Task數量

Spark Streaming流處理時的Task數量

總結

相關推薦