spark range join 優化

阿新 • • 發佈：2018-12-13

文章目錄

背景

native join

解決方法
結論
參考

背景

一張ip表，一張ip地理資訊表，地理資訊表每條資料包含了ip地址的起點和終點以及一些地理資訊, 需要用 ip 去關聯 gep_ip 中匹配相應的資訊。

例如：
資料條數為 50 M 的表 ip_record，資料格式大致如下:

ip_int	info
123456789	xx
987654321	xx

資料條數為 7 M 的表 geoip ，資料格式大致如下：

ipstart	ipend	country	province	city	…
0	10000	…	…	…	…
10001	25000	…	…	…	…

native join

ip_record 和 geoip 關聯，找出ip對應的geo資訊，寫出的 sql 應該是這樣的:

SELECT A.*,
       B.*
FROM   ip_record A
       JOIN geoip B
        ON A.ip_int >= B.ipstart
         AND A.ip_int <= B.ipend

會觸發一個 cartesian product ，然後通過 filter 篩出你需要的資料。

broadcast join ?

SELECT 
    /*+ broadcast(B) */
    A.*,
    B.*
FROM   
    ip_record A
    JOIN geoip B
    ON A.ip_int >= B.ipstart
    AND A.ip_int <= B.ipend

會觸發 BroadcastNestedLoopJoin ，每條 record 都會產生大量的迴圈。

上述兩種方法都會有 50M * 7M 次的迴圈。

解決方法

將 geoip 表的 ipstart 轉化為一個列表，進行廣播。
遍歷 record 表，在廣播列表中使用二分查詢到相應 ipstart。

pySpark (2.X) 程式碼實現:

from bisect import bisect_right
from pyspark.sql.types import LongType

#選取 ipstart 欄位，排序廣播
geo_start_bd = sc.broadcast(geo_ip
  .select("ipstart")
  .orderBy("ipstart") 
  .rdd
  .flatMap(lambda x: x)
  .collect())

#二分查詢，找到對應start
def find_le(x):
    i = bisect_right(geo_start_bd.value, x)
    if i:
        return geo_start_bd.value[i-1]
    return None

spark.udf.register("find_le",find_le)

spark.sql("""
    select 
        a.ip_int,b.country,b.province,b.city,b.isp
    from 
        (select *,find_le(ip_int) as ipstart from ip_record) a
    left join geo_ip b
    on a.ipstart = b.ipstart
""")

執行計劃變成了 sortMergeJoin 。

結論

時間複雜度：O(N * M) -> O(N * LOG(M)) 。N 為 record 數量，M 為 geo_ip 表數量。

測試環境：

spark 2.2
executor(3c 12g) * 15
所有record的資料分割槽數為 45

在這個場景中計算耗時：185 hour (預估，如果能計算出來) -> 2 min，效能提升了10000X

geo_ip 不變：計算時間隨 record 數量變化表:

record	cartesianProduct	broadcastNestLoopJoin (廣播 geo_ip)	after optimized
10^4	6.2 min	3.5 min	27s
10^5	66 min	30 min	33s
10^6	-	-	27s
10^7	-	-	27s
10^8	-	-	51s

參考

SPARK-8682

spark range join 優化

文章目錄背景 native join 解決方法結論參考背景一張ip表，一張ip地理資訊表，地理資訊表每條資料包含了ip地址的起點和終點以及一些地理資訊, 需要用 ip 去關聯 gep_

Spark實踐之join優化

join優化應該是spark相關崗位面試必考的內容。 join其實常見的就分為兩類： map-side join 和 reduce-side join。當大表和小表join時，用map-side join能顯著提高效率。。 /** * Created by she

Spark SQL之Join優化

SparkSQL總體流程介紹在闡述Join實現之前，我們首先簡單介紹SparkSQL的總體流程，一般地，我們有兩種方式使用SparkSQL，一種是直接寫sql語句，這個需要有元資料庫支援，例如Hive等，另一種是通過Dataset/DataFrame編寫Spark應用

【轉載】 Spark性能優化指南——基礎篇

否則內存占用是否進行優先邏輯我們流式字節數組前言開發調優調優概述原則一：避免創建重復的RDD 原則二：盡可能復用同一個RDD 原則三：對多次使用的RDD進行持久化原則四：盡量避免使用shuffle類算子原則五：使用map-side預聚

Spark性能優化指南——高級篇

stat 參數調優 5% 每一個寫性能 nes fix 單獨 png Spark性能優化指南——高級篇 [TOC] 前言繼基礎篇講解了每個Spark開發人員都必須熟知的開發調優與資源調優之後，本文作為《Spark性能優化指南》的高級篇，將深入分析數據傾斜調

Spark性能優化之道——解決Spark數據傾斜（Data Skew）的N種姿勢

至少 array 效率提升 default executors 並行處理 foreach shp 來源原創文章，轉載請務必將下面這段話置於文章開頭處。本文轉發自技術世界，原文鏈接　http://www.jasongj.com/spark/skew/ 摘要本文結合

MySQL的JOIN（三）：JOIN優化實踐之內循環的次數

ted www str 連接 pri 記錄 font 語句 style 這篇博文講述如何優化內循環的次數。內循環的次數受驅動表的記錄數所影響，驅動表記錄數越多，內循環就越多，連接效率就越低下，所以盡量用小表驅動大表。先插入測試數據。 CREATE TABLE t1

MySQL Using temporary; Using filesort INNER JOIN優化

關聯表 -- index.php 分布結果時間 from sta 包含問題通過「SHOW FULL PROCESSLIST」語句很容易就能查到問題SQL，如下： SELECT post.* FROM post INNER JOIN post_tag ON post.

Spark記錄-Spark性能優化解決方案

let .text 並行 alloc lte 知識 enabled ida 並發執行 Spark性能優化的10大問題及其解決方案問題1：reduce task數目不合適解決方式：需根據實際情況調節默認配置，調整方式是修改參數spark.default.paralle

Spark性能優化指南——基礎篇（轉載）

cores 寫入所在 src 做了一次函數種類推薦 var 前言在大數據計算領域，Spark已經成為了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、流式/實時計算、機器學習、圖計算等各種不同類型的計算操

MaxCompute JOIN優化小結

性能日誌摘要： Join是MaxCompute中最基本的語法，但由於數據量和傾斜問題，非常容易出現性能問題。一般情況下，join產生的問題有兩大類：數據傾斜問題：join會將key相同的數據分發到同一個instance上處理，如果某個key上的數據量特別多則會導致該instance處理時間比其他

Spark性能優化指南——基礎篇

數據緩存較差計算平臺 entry col 機器輸入數據使用持久化數據前言在大數據計算領域，Spark已經成為了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、流式/實時計算、機器學習、圖計算等各種不同類型的計

Spark性能優化指南——基礎篇（轉載

action 註冊 tex 開發者 ons apache ring 占用內存完整前言在大數據計算領域，Spark已經成為了越來越流行、越來越受歡迎的計算平臺之一。Spark的功能涵蓋了大數據領域的離線批處理、SQL類處理、流式/實時計算、機器學習、圖計算等各種不同類

spark性能優化-JVM虛擬機垃圾回收調優

spark性能 vm虛擬機技術圖片技術分享 park 虛擬 inf src 1 2 3 4 spark性能優化-JVM虛擬機垃圾回收調優

Spark的引數優化

Spark程式優化所需要關注的幾個關鍵點——最主要的是資料序列化和記憶體優化 spark 設定相關引數問題1：reduce task數目不合適解決方法：需根據實際情況調節預設配置，調整方式是修改引數spark.default.parallelism。通常，reduce數目設

Spark SQL join的三種實現方式

引言 join是SQL中的常用操作，良好的表結構能夠將資料分散到不同的表中，使其符合某種規範(mysql三大正規化)，可以最大程度的減少資料冗餘，更新容錯等，而建立表和表之間關係的最佳方式就是join操作。對於Spark來說有3種Join的實現，每種Join對應的不同的應用場景(SparkSQL自動決策

spark中join的簡單操作

（1）RDD之間的join import org.apache.spark.sql.SparkSession object joinDemo { //BroadcastHashJoin def main(args: Array[String]): Unit = { val

spark之join操作

import java.util.Arrays; import java.util.Iterator; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.a

spark運算元join操作

一旦分散式資料集（distData）被建立好，它們將可以被並行操作。例如，我們可以呼叫distData.reduce(lambda a, b: a + b)來將陣列的元素相加。我們會在後續的分散式資料集運算中進一步描述。並行集合的一個重要引數是slices，表示資料集切分的份數。Spark將會在叢

[Spark 進階]-- 優化Spark作業以獲得最佳效能

感謝原文作者：https://michalsenkyr.github.io/2018/01/spark-performance Spark作業的開發在表面上看起來很容易，而且大部分都是如此。提供的 API設計精良且功能豐富，如果您熟悉Scala集合或Java流，您將立即完成實施。實際上，當在叢集

spark range join 優化

文章目錄

背景

native join

解決方法

結論

參考

相關推薦