Spark學習之路四、Spark的廣播變數和累加器

阿新 • • 發佈：2021-01-11

正文

一、概述

在spark程式中，當一個傳遞給Spark操作(例如map和reduce)的函式在遠端節點上面執行時，Spark操作實際上操作的是這個函式所用變數的一個獨立副本。這些變數會被複制到每臺機器上，並且這些變數在遠端機器上的所有更新都不會傳遞迴驅動程式。通常跨任務的讀寫變數是低效的，但是，Spark還是為兩種常見的使用模式提供了兩種有限的共享變數：廣播變（broadcast variable）和累加器（accumulator）

回到頂部

二、廣播變數broadcast variable

2.1　為什麼要將變數定義成廣播變數？

如果我們要在分散式計算裡面分發大物件，例如：字典，集合，黑白名單等，這個都會由Driver端進行分發，一般來講，如果這個變數不是廣播變數，那麼每個task就會分發一份，這在task數目十分多的情況下Driver的頻寬會成為系統的瓶頸，而且會大量消耗task伺服器上的資源，如果將這個變數宣告為廣播變數，那麼知識每個executor擁有一份，這個executor啟動的task會共享這個變數，節省了通訊的成本和伺服器的資源。

2.2　廣播變數圖解

錯誤的，不使用廣播變數

正確的，使用廣播變數的情況

2.3　如何定義一個廣播變數？

val a = 3
val broadcast = sc.broadcast(a)

2.4　如何還原一個廣播變數？

val c = broadcast.value

2.5　定義廣播變數需要的注意點？

變數一旦被定義為一個廣播變數，那麼這個變數只能讀，不能修改

2.6　注意事項

1、能不能將一個RDD使用廣播變數廣播出去？

不能，因為RDD是不儲存資料的。可以將RDD的結果廣播出去。

2、廣播變數只能在Driver端定義，不能在Executor端定義。

3、在Driver端可以修改廣播變數的值，在Executor端無法修改廣播變數的值。

4、如果executor端用到了Driver的變數，如果不使用廣播變數在Executor有多少task就有多少Driver端的變數副本。

5、如果Executor端用到了Driver的變數，如果使用廣播變數在每個Executor中只有一份Driver端的變數副本。

回到頂部

三、累加器

3.1　為什麼要將一個變數定義為一個累加器？

在spark應用程式中，我們經常會有這樣的需求，如異常監控，除錯，記錄符合某特性的資料的數目，這種需求都需要用到計數器，如果一個變數不被宣告為一個累加器，那麼它將在被改變時不會再driver端進行全域性彙總，即在分散式執行時每個task執行的只是原始變數的一個副本，並不能改變原始變數的值，但是當這個變數被宣告為累加器後，該變數就會有分散式計數的功能。

3.2　圖解累加器

錯誤的圖解

正確的圖解

3.3　如何定義一個累加器？

val a = sc.accumulator(0)

3.4　如何還原一個累加器？

val b = a.value

3.5　注意事項

1、累加器在Driver端定義賦初始值，累加器只能在Driver端讀取最後的值，在Excutor端更新。

2、累加器不是一個調優的操作，因為如果不這樣做，結果是錯的

Spark學習之路四、Spark的廣播變數和累加器

一、概述

二、廣播變數broadcast variable

2.1　為什麼要將變數定義成廣播變數？

2.2　廣播變數圖解

2.3　如何定義一個廣播變數？

2.4　如何還原一個廣播變數？

2.5　定義廣播變數需要的注意點？

2.6　注意事項

三、累加器

3.1　為什麼要將一個變數定義為一個累加器？

3.2　圖解累加器

3.3　如何定義一個累加器？

3.4　如何還原一個累加器？

3.5　注意事項

Spark學習之路四、Spark的廣播變數和累加器

Spark學習之路二、Spark HA叢集的分散式安裝

Spark學習之路六、Spark Transformation和Action

Spark學習之路五、Spark偽分散式安裝

Spark學習之路七、Spark 執行流程

Spark學習之路八、SparkCore的調優之開發調優

Spark學習之路十一、SparkCore的調優之Spark記憶體模型

Mapreduce學習之路四

CAPL學習之路-資訊、類的例項化、陣列、結構體、列舉、字典

Spark(八)【廣播變數和累加器】

Flink學習之路（十）—— Table API 和 Flink SQL （一）—— 整體介紹

SparkCore | Rdd依賴關係| 資料讀取儲存| 廣播變數和累加器

CDA資料分析師學習之路第3期 | Spark RDD的轉換操作舉例

Spark學習筆記（一）Spark初識【特性、組成、應用】

Redis學習之路（四）之Redis叢集

Java零基礎學習之路（十四）Java初學者練習題

FastAPI 學習之路（十四）響應模型

FastAPI 學習之路（二十四）子依賴項

程式設計日記：Java學習之路（四）

FastAPI 學習之路（四十八）WebSockets（四）介面測試

Spark學習之路 四、Spark的廣播變數和累加器

一、概述

二、廣播變數broadcast variable

2.1 為什麼要將變數定義成廣播變數？

2.2 廣播變數圖解

2.3 如何定義一個廣播變數？

2.4 如何還原一個廣播變數？

2.5 定義廣播變數需要的注意點？

2.6 注意事項

三、累加器

3.1 為什麼要將一個變數定義為一個累加器？

3.2 圖解累加器

3.3 如何定義一個累加器？

3.4 如何還原一個累加器？

3.5 注意事項

相關推薦

Spark學習之路四、Spark的廣播變數和累加器

2.1　為什麼要將變數定義成廣播變數？

2.2　廣播變數圖解

2.3　如何定義一個廣播變數？

2.4　如何還原一個廣播變數？

2.5　定義廣播變數需要的注意點？

2.6　注意事項

3.1　為什麼要將一個變數定義為一個累加器？

3.2　圖解累加器

3.3　如何定義一個累加器？

3.4　如何還原一個累加器？

3.5　注意事項