Spark利用Broadcast實現Join避免Shuffle操作

阿新 • • 發佈：2019-08-17

在Spark中，諸如ReduceByKey，GroupByKey等操作會觸發Shuffle，影響效能。
本文提供了一種利用廣播Broadcast，實現了join操作，避免了Shuffle。

正常的join操作

    val sc = new SparkContext(new SparkConf().setMaster("local").setAppName("test"))
    // data1為較小資料， data2為較大資料
    val data1 = sc.parallelize(Array(("1", "aa"),("2", "bb"),("3", "cc")),2)
    val data2 = sc.parallelize(Array(("1", "spark", "hadoop"),("2", "ElasticSearch", "Flume"),("3", "Kafka", "Redis"),("4", "Flink", "HDFS"),("5", "Yarn", "Linux"),("6", "Windows", "MySQL")),3)
        .map(x=>(x._1, x))

   data1.join(data2).foreach(println(_))

本文利用的方法

    val data1Broadcast = sc.broadcast(data1.collectAsMap())
    data2.map(x => {
      (x, data1Broadcast.value.getOrElse(x._1, ""))
    }).filter(_._2!="").foreach(println(_))

其中， Broadcast會將資料分發至每個節點的記憶體中，本方法只適合小資料，

Spark利用Broadcast實現Join避免Shuffle操作

在Spark中，諸如ReduceByKey，GroupByKey等操作會觸發Shuffle，影響效能。本文提供了一種利用廣播

C#利用Dapper實現對SQLite的操作

前言近幾天藉助C#對SQLite的學習，算是對資料庫剛入門吧，三天前寫了一篇C#利用System.Data.SQLite實現對SQLite的操作，其中方法是基於System.Data.SQLite.dll的程式包，後來在youtube和infoworld上看到利用Dapper程式包對資

Spark SQL如何實現mysql的union操作

簡介今天聊了聊一個小小的基礎題，union和union all的區別： union all是直接連線，取到得是所有值，記錄可能有重複 union 是取唯一值，記錄沒有重複 1、UNION 的語法如下： [SQL 語句 1] &nb

Python 3 利用 subprocess 實現管道( pipe )互動操作讀/寫通訊

1 # -*- coding:utf-8 -*- 2 3 import subprocess 4 import sys 5 import threading 6 7 class LoopException(Exception): 8 """迴圈異常自定義異常

spark利用MLlib實現kmeans演算法例項

spark版本 1.3.1 scala系統環境2.10.4 程式編譯版本2.11.8 需要注意的是，訓練資料和待測試資料都要是浮點型的，如果是int型的資料的話會報錯 package Kmeans import org.apache.spark.mllib.clust

SparkSQL中的三種Join及其實現（broadcast join、shuffle hash join和sort merge join）

1.小表對大表（broadcast join）將小表的資料分發到每個節點上，供大表使用。executor儲存小表的全部資料，一定程度上犧牲了空間，換取shuffle操作大量的耗時，這在SparkSQL中稱作Broadcast Join Broadcast Jo

Spark Join——Broadcast Join、Shuffle Hash Join、Sort Merge Join

1. Broadcast Join 在資料庫的常見模型中（比如星型模型或者雪花模型），表一般分為兩種：事實表和維度表。維度表一般指固定的、變動較少的表，例如聯絡人、物品種類等，一般資料有限。而事實表一般記錄流水，比如銷售清單等，通常隨著時間的增長不斷膨脹。因為

MySQL中使用INNER JOIN來實現Intersect並集操作

int isam har 業務 charset tin ner get 一句話 MySQL中使用INNER JOIN來實現Intersect並集操作一、業務背景我們有張表設計例如以下： CREATE TABLE `user_defined_value` (

Spark SQL中Dataframe join操作含null值的列

dataframe util pre table log n-n dram blog between 當在Spark SQL中對兩個Dataframe使用join時，當作為連接的字段的值含有null值。由於null表示的含義是未知，既不知道有沒有，在SQL中null值與任何

php如何利用python實現對pdf文件的操作（讀寫、合並分割）

PHP實現pdf文件截取 PHP調用python腳本 php如何利用python實現對pdf文件的操作需求：在PHP裏實現了把8.pdf的前4頁pdf文件截取出來生成新的pdf文件。詳細步驟如下： 1. 安裝python第三方庫PyPDF2 前提：python必須是3.x版本以上，必要時需要升級p

利用GitLab webhook來實現觸發Jenkins自動操作

監聽 ab測試匿名 jenkin 本機事件版本 strong host 本文針對如何設置GitLab以及Jenkins，實現每次GitLab上有提交事件的時候，都能觸發Jenkins執行相應的操作，主要分為以下幾個步驟： 1、新建GitLab測試用例進入個人GitL

PHP如何利用Python實現對PDF檔案的操作

需求：在PHP裡實現了把8.pdf的前4頁pdf檔案截取出來生成新的pdf檔案。詳細步驟如下：前提：python必須是3.x版本以上，必要時需要升級pip3,命令如下：pip3 install --upgrade pipPyPDF 自 2010年 12月開始就不在更新了，PyPDF2 接棒 PyPD

Spark優化(五)：使用map-side預聚合的shuffle操作

使用map-side預聚合的shuffle操作如果因為業務需要，一定要使用shuffle操作，無法用map類的運算元來替代，那麼儘量使用可以map-side預聚合的運算元。所謂的map-side預聚合，說的是在每個節點本地對相同的key進行一次聚合操作，類似於MapReduce中的本

Spark優化(四)：儘量避免使用shuffle類運算元

儘量避免使用shuffle類運算元如果有可能的話，要儘量避免使用shuffle類運算元。因為Spark作業執行過程中，最消耗效能的地方就是shuffle過程。shuffle過程，簡單來說，就是將分佈在叢集中多個節點上的同一個key拉取到同一個節點上，進行聚合或join等操作。比如reduce

spark中join的簡單操作

（1）RDD之間的join import org.apache.spark.sql.SparkSession object joinDemo { //BroadcastHashJoin def main(args: Array[String]): Unit = { val

C#利用System.Data.SQLite實現對SQLite的操作

SQLite介紹 SQLite是一個類似於Access的單機版資料庫管理系統，它將所有資料庫的定義（包括定義、表、索引和資料本身）都儲存在一個單一的檔案中。並且，SQLite是一個用C實現的類庫，它在記憶體消耗、檔案體積、簡單性方面都有不錯的表現，如果資料在10W條以下，查詢速度也是相當

Spark專案實戰-troubleshooting之控制shuffle reduce端緩衝大小以避免OOM

一、reduce緩衝機制如下，我們知道shuffle的map端task是不斷輸出資料的，資料量可能是很大的。但是其實reduce端的task，並不是等到map端task將屬於自己的那份資料全部寫入磁碟檔案之後再去拉取的。map端寫一點資料，reduce端task就會拉取

第67課：Spark SQL下采用Java和Scala實現Join的案例綜合實戰（鞏固前面學習的Spark SQL知識）

內容： 1.SparkSQL案例分析 2.SparkSQL下采用Java和Scala實現案例一、SparkSQL下采用Java和Scala實現案例學生成績： {"name":"Michael","score":98} {"name":"Andy"

2-2、spark的union和join操作演示

spark的union和join操作演示 union簡介：通常如果我們需要將兩個select語句的結果作為一個整體顯示出來，我們就需要用到union或者union all關鍵字。union(或稱為聯合)的作用是將多個結果合併在一起顯示出來。 Union：將兩個RDD進行

離線輕量級大資料平臺Spark之JavaRDD關聯join操作

對兩個RDD進行關聯操作，如： 1）檔案post_data.txt包含：post_id\title\content 2）檔案train.txt包含：dev_id\post_id\praise\time 通過post_id關聯，提取post_id\content\praise

Spark利用Broadcast實現Join避免Shuffle操作

正常的join操作

本文利用的方法

相關推薦