sparksql的join有哪些及實現原理

阿新 • • 發佈：2022-12-09

sparksql的3種join實現

1、Broadcast Join （小表對大表）

在資料庫的常見模型中（比如星型模型或者雪花模型），表一般分為兩種：事實表和維度表。

維度表一般指固定的、變動較少的表，例如聯絡人、物品種類等，一般資料有限。

事實表一般記錄流水，比如銷售清單等，通常隨著時間的增長不斷膨脹。

因為Join 操作是對兩個表中key值相同的記錄進行連線，在SparkSQL中，對兩個表做join最直接的方式是先根據key分割槽，再在每個分割槽中把key值相同的記錄拿出來做

連線操作。但這樣就不可避免地涉及到shuffle，而shuffle在spark中比較耗時的操作，我們應該儘可能的設計Spark應用使其避免大量的shuffle。

當維度表和事實表進行join操作時，為了避免shuffle，我們可以將大小有限的維度表的全部資料分發到每個節點上，供事實表使用。executor儲存維度表的全部資料，一定程度上犧牲了

空間，換取shuffle操作大量的耗時，這在SparkSQL中稱作 Broadcast Join。

Table B 是較小的表，黑色表示將其廣播到每個executor節點上，Table A 的每個partition 會通過 block manager取到Table A的資料。根據每條記錄的 Join Key 取到

Table B中相對應的記錄，根據 Join Type進行操作。這個過程比較簡單，不做贅述。

ps:禁用廣播命令： set spark.sql.autoBroadcastJoinThreshold=-1;

Broadcast Join 的條件有以下幾個：

（1）被廣播的表需要小於 spark.sql.autoBroadcastJoinThreshold所配置的值，預設是10M（或者加了 broadcast join的 hint）

（2）基表不能被廣播，比如 left outer join時，只能廣播右表。

看起來廣播是一個比較理想的方案，但它有沒有缺點呢？也很明顯。這個方案只能用於廣播較小的表，否則資料的冗餘傳輸就遠大於shuffle的開銷；

另外，廣播時需要將被廣播的表collect 到driver端，然後由driver端將資料分發到其他executor，當頻繁有廣播出現時，對driver的記憶體也是一個考驗。

2、Shuffle Hash Join

當一側的表比較小時，我們選擇將其廣播出去以避免shuffle，提高效能。但因為被廣播的表首先被collect到driver端，然後被冗餘分發到每個executor上，所以當表比較大時，

採用 broadcast join 會對driver端和executor端造成較大的壓力。

但由於Spark 是一個分散式的計算引擎，可以通過分割槽的形式將大批量的資料劃分成n份較小的資料集進行平行計算。這種思想應用到Join上便是 Shuffle Hash Join 了。

利用key相同必然分割槽相同的這個原理，Spark SQL將較大表的 join 分而治之，先將表劃分成 n 個分割槽，再對兩個表中相對應分割槽的資料分別進行 Hash Join，這樣即在

一定程度上減少了driver廣播一側表的壓力，也減少了executor端取整張被廣播表的記憶體消耗。

Shuffle Hash Join 分為兩步：
1、對兩張表分別按照 join keys進行重分割槽，即shuffle，目的就是為了讓有相同 join keys值的記錄分到對應的分割槽中。

2、對對應分割槽中的資料進行 join，此處先將小表分割槽構造為一張hash 表，然後根據大表分割槽中記錄的join keys值拿出來進行匹配。

Shuffle Hash Join 的條件有以下幾個：

1、分割槽的平均大小不超過 spark.sql.autoBroadcastJoinThreshold 所配置的值，預設是 10M。

2、基表不能被廣播，比如 left outer join 時，只能廣播右表。

3、一側的表要明顯小於另外一側，小的一側將被廣播（明顯小於的定義為3倍小）

我們可以看到，在一定大小的表中，SparkSQL從時空結合的角度來看，將兩個表進行重新分割槽，並且對小表中的分割槽進行hash化，從而完成join。

在保持一定複雜度的基礎上，儘量減少driver和executor的記憶體壓力，提升了計算時的穩定性。

Sort Merge Join （大表對大表）

上面介紹的兩種實現對於一定大小的表表適用，但當兩個表都非常大時，顯然無論用哪種都會對計算記憶體造成很大壓力。這是因為join 時兩者採取的都是 hash join，

是將一側的資料完全載入到記憶體中，使用 hash code取 join keys值相等的記錄進行連線。

當兩個表都非常大時，SparkSQL 採用了一種全新的方案來對標進行 join，即 Sort Merge Join 。這種實現方式不用將一側資料全部載入後再進行 hash join，但需要在

join 前將資料排序。

可以看到，首先將兩張表按照 join keys 進行了重新shuffle，保證 join keys值相同的記錄會被分在相應的分割槽。分割槽後對每個分割槽內的資料進行排序，排序後

再對相應的分割槽內的記錄進行連線。

因為兩個序列都是有序的，從頭遍歷，碰到 key 相同的就輸出，如果不同，左邊小就繼續取左邊，反之取右邊。

可以看出，無論分割槽有多大，Sort Merge Join 都不用把某一側的資料全部載入到記憶體中，而是即用即丟，從而大大提升了大數量下 sql join 的穩定性。

sparksql的join有哪些及實現原理

sparksql的3種join實現 1、Broadcast Join （小表對大表）在資料庫的常見模型中（比如星型模型或者雪花模型），表一般分為兩種：事實表和維度表。

執行緒池應用及實現原理剖析

為什麼要用執行緒池執行緒是不是越多好？執行緒在Java中是一個物件，更是作業系統的資源，執行緒額建立和銷燬都需要時間，如果建立時間+銷燬時間>執行任務時間就很不合算

MySQL8.0 DDL原子性特性及實現原理

1. DDL原子性概述 8.0之前並沒有統一的資料字典dd，server層和引擎層各有一套元資料，sever層的元資料包括(.frm,.opt,.par,.trg等)，用於儲存表定義，分割槽表定義，觸發器定義等資訊；innodb層也有自己一套元資料，

JS圖片懶載入的優點及實現原理

這篇文章主要介紹了JS圖片懶載入的優點及實現原理,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

MQTT簡介及實現原理

MQTT（Message Queuing Telemetry Transport，訊息佇列遙測傳輸協議），是一種基於釋出/訂閱（publish/subscribe）模式的“輕量級”通訊協議，該協議構建於TCP/IP協議上，由IBM在1999年釋出。MQTT最大優點

log4j2 自動刪除過期日誌檔案的配置及實現原理

　　日誌檔案自動刪除功能必不可少，當然你可以讓運維去做這事，只是這不地道。而日誌元件是一個必備元件，讓其多做一件刪除的工作，無可厚非。本文就來探討下 log4j 的日誌檔案自動刪除實現吧。

jdk動態代理的使用及實現原理

已經畢業兩個月啦，在找工作的過程中經常有人問起spring相關的知識，尤其是spring核心aop是必不可少的，回答時總會回答spring的aop是由動態代理實現的，但是具體使用方法和原理有些模糊。spring提供了jdk動態代理，那

各類鎖的對比及實現原理

2.1 什麼是鎖 Java中的每一個物件都可以作為鎖。具體表現為以下3種形式：對於普通同步方法，鎖是當前例項物件。

component示例程式碼及實現原理跟蹤(一)

技術標籤：componentlinux 概述 kernel中的component框架是為了subsystem能夠按照一定的順序初始化裝置而提出的架構。在component中，包含兩個基本概念，master和component。master是裝置樹中的“超級裝置（sup

@SneakyThrows註解的作用及實現原理

@SneakyThrows註解的用途得從java的異常設計體系說起。 java中我們常見的2類異常。 1.普通Exception類,也就是我們常說的受檢異常或者Checked Exception。 2.RuntimeException類，既執行時異常。前者會強制要求丟擲

log4j2 自動刪除過期日誌檔案配置及實現原理解析

轉載：https://www.cnblogs.com/yougewe/p/13407812.html#_label1 目錄 0.自動刪除配置參考樣例: （log4j2.xml）

Vue2原始碼解讀（5） - Vue.use 使用及實現原理

vue.use 使用及實現原理 Vue.use( plugin ) 引數： plugin: { object | Function} 做什麼的？ vue全域性註冊外掛的方法

遠端過程呼叫RPC基本概念及實現原理

>>什麼是RPC RPC 的全稱是 Remote Procedure Call 是一種程序間通訊方式。它允許程式呼叫另一個地址空間（通常是共享網路的另一臺機器上）的過程或函式，而不用程式設計師顯式編碼這個遠端呼叫的細節。即無論

【JavaWeb】JDK動態代理 --- 代理模式；靜態代理；動態代理；JDK動態代理的實現及實現原理分析

需要掌握的程度： 1. 什麼是JDK動態代理？使用jdk的反射機制，建立物件的能力（建立的是代理類的物件），而不用建立類檔案，不用寫java檔案。

HTML行內元素與塊級元素有哪些及區別詳解

轉自 https://www.jb51.net/web/724286.html 這篇文章主要介紹了HTML行內元素與塊級元素有哪些及區別詳解，文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨

面試題系列---【vue-router是什麼？有哪些路由模式？實現原理是什麼】

vue-router是什麼？有哪些路由模式？ 1.vue-router是什麼 vue-router是Vue.js官方的路由外掛，它和vue.js是深度整合的，適合用於構建單頁面應用。vue的單頁面應用是基於路由和元件的，路由用於設定訪問路徑，並將路徑

哈夫曼樹(Huffman樹)原理分析及實現（C++）

1 構造原理假設有n個權值，則構造出的哈夫曼樹有n個葉子結點。 n個權值分別設為 w1、w2、…、wn，則哈夫曼樹的構造規則為：

分散式鎖都有哪些實現方案？

一、業務場景同一個jvm裡多個執行緒操作同一個有狀態的變數，可以通過JVM內的鎖保證執行緒安全。

剖析nsq訊息佇列(一) 簡介及去中心化實現原理

剖析nsq訊息佇列-目錄分散式訊息佇列nsq，簡單易用，去中心化的設計使nsq更健壯，nsq充分利用了go語言的goroutine和channel來實現的訊息處理，程式碼量也不大，讀不了多久就沒了。後期的文章我會把nsq的原始碼分析給

Java繼承方法重寫實現原理及解析

這篇文章主要介紹了Java繼承方法重寫實現原理及解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

sparksql的join有哪些及實現原理

相關推薦