Spark實踐之join優化

阿新 • • 發佈：2019-01-01

join優化應該是spark相關崗位面試必考的內容。 join其實常見的就分為兩類： map-side join 和 reduce-side join。當大表和小表join時，用map-side join能顯著提高效率。。

/**
 * Created by shenjiyi on 2015/7/8.
 */

package com.test

import com.test.utils.MySparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf

object TestJoin {
  def main (args: Array[String]): Unit ={
    val conf = new SparkConf()
      .setMaster(args(0))
      .setAppName("TestJoin")
      .set("spark.speculation", "true")
      .set("spark.default.parallelism", "200")
    val sc = new MySparkContext(conf)

    val input1 = sc.rawTextFile(args(1), "GB18030")
    val input2 = sc.rawTextFile(args(2), "GB18030")
    val output1 = args(3)
    val output2 = args(4)

    val pairs = input1.map { x =>
      val pos = x.indexOf(',')
      (x.substring(0, pos), x.substring(pos + 1))
    }.collectAsMap()


    //map-side join 適用於小表和大表join的情況
    //將小表load到記憶體，然後broad到各個節點之後，再個大表做join，可以避免shuffle，提高效率
    val broadCastMap = sc.broadcast(pairs)
    val result = input2.map{ x =>
      val pos = x.indexOf('\t')
      (x.substring(0, pos), x.substring(pos + 1))
    }.mapPartitions { iter =>
      val m = broadCastMap.value
      for {
        (k, v) <- iter
        if (m.contains(k))
      } yield (k, (v, m.get(k).getOrElse("")))
    }.saveAsTextFile(output1)


    //reduce-side join
    val pairs2 = input1.map { x =>
      val pos = x.indexOf('\t')
      (x.substring(0, pos), x.substring(pos + 1))
    }
    val result2 = input2.map { x =>
      val pos = x.indexOf('\t')
      (x.substring(0, pos), x.substring(pos + 1))
    }.join(pairs2).saveAsTextFile(output2)
  }
}

Spark實踐之join優化

join優化應該是spark相關崗位面試必考的內容。 join其實常見的就分為兩類： map-side join 和 reduce-side join。當大表和小表join時，用map-side join能顯著提高效率。。 /** * Created by she

Spark SQL之Join優化

SparkSQL總體流程介紹在闡述Join實現之前，我們首先簡單介紹SparkSQL的總體流程，一般地，我們有兩種方式使用SparkSQL，一種是直接寫sql語句，這個需要有元資料庫支援，例如Hive等，另一種是通過Dataset/DataFrame編寫Spark應用

Spark SQL 之 Join 實現

結構很多找到過濾 sql查詢優化 ade read 轉換成分析原文地址：Spark SQL 之 Join 實現 Spark SQL 之 Join 實現塗小剛 2017-07-19 217標簽： spark ，數據庫 Join作為SQL中

MySQL查詢之join優化

SQL語句開發技巧正確使用SQL帶來的優勢 1 增加資料庫處理效率，減少應用響應時間 2 減少資料庫伺服器負載，增加伺服器穩定性 3 減少伺服器間通訊的網路流量正確使用join語句 SQL標準中join的型別內連線 INNER 全外連線 FULL

淺談Flink批處理優化器之Join優化

跟傳統的關係型資料庫類似，Flink提供了優化器“hint”（提示）以告訴優化器選擇一些執行策略。目前優化提示主要針對批處理中的連線（join）。在批處理中共有三個跟連線有關的轉換函式： outerJoin：外連線，具體細分為left-outer jo

MySQL的JOIN（三）：JOIN優化實踐之內循環的次數

ted www str 連接 pri 記錄 font 語句 style 這篇博文講述如何優化內循環的次數。內循環的次數受驅動表的記錄數所影響，驅動表記錄數越多，內循環就越多，連接效率就越低下，所以盡量用小表驅動大表。先插入測試數據。 CREATE TABLE t1

體驗為王的年代，從視訊優化到QoE，機器學習實踐之路

內容來源：2018 年 09 月 07 日，上海交通大學教授宋利在“RTC 2018實時網際網路大會”上進行的《機器學習在QoE中的應用實踐》演講分享。IT 大咖說作為獨家視訊合作方，經主辦方和講者審閱授權釋出。閱讀字數：3112 | 8分鐘閱讀獲取嘉賓演講視訊及PPT，請點選：t.cn/EwQ9od6

spark之join操作

import java.util.Arrays; import java.util.Iterator; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.a

paip.前端載入時間分析之道優化最佳實踐

paip.前端載入時間分析之道優化最佳實踐 1.另存為 ,檢視檔案尺寸..和圖片. 2.view the 另存為的htm靜態的檔案單個的載入,看時間...能夠排除程式語言的問題and 資料庫.. ##頁面載入速度對於使用者體驗的影響。 1秒內,最好的..

spark range join 優化

文章目錄背景 native join 解決方法結論參考背景一張ip表，一張ip地理資訊表，地理資訊表每條資料包含了ip地址的起點和終點以及一些地理資訊, 需要用 ip 去關聯 gep_

Spark之join、leftOuterJoin、rightOuterJoin及fullOuterJoin

from pyspark import SparkConf, SparkContext conf = SparkConf() sc = SparkContext(conf=conf) def func_join(): a = sc.parallelize([("name", "Alice"),

spark入門實踐之單詞統計

2017-07-01 簡介 Apache Spark 是專為大規模資料處理而設計的快速通用的計算引擎。 Spark由UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室) 於2009年開始開發並開源. 目前

Spark Streaming之foreachRDD效能優化

首先我們來對官網的描述瞭解一下。 DStream中的foreachRDD是一個非常強大函式，它允許你把資料傳送給外部系統。因為輸出操作實際上是允許外部系統消費轉換後的資料，它們觸發的實際操作是D

Spark的RDD操作之Join大全！

/** * Perform a right outer join of `this` and `other`. For each element (k, w) in `other`, the * resulting RDD will either contain all pairs (k, (So

mysql：21個性能優化最佳實踐之17[拆分大的 DELETE 或 INSERT 語句]

拆分大的 DELETE 或 INSERT 語句如果你需要在一個線上的網站上去執行一個大的 DELETE 或 INSERT 查詢，你需要非常小心，要避免你的操作讓你的整個網站停止相應。因為這兩個操作是會鎖表的，表一鎖住了，別的操作都進不來了。　　Apach

資料庫優化SQL優化之SELECT優化 ——JOIN和LEFT JOIN 和 RIGHT JOIN

在資料庫的應用中，我們經常需要對多表進行連表操作來獲得關係型的資料，因此，應該更加的掌握好 SQL語句的join原理，因為，可以稍一不慎，可能一個不好的join導致資料庫的全表掃描，查詢出大量的無用的資訊，並且對資料庫效能影響極大。資

Spark Streaming 流計算優化記錄(2)-不同時間片資料流的Join

1. 不同時間片資料流的Join 初體驗之後, 看了一下Spark WebUi 的日誌, 發現由於Spark Streaming需要每秒跑一次, 以實時計算資料, 所以程式不得不每秒都讀一次HDFS去

Spark Streaming 流計算優化記錄(3)-控制流量與join的地點

4. 流量控制好像之前說過”一下子從Kafka拉取幾十萬條訊息進行處理”的事情, 其實醬紫是不對滴, 飯要一口一口吃, 一下子吃太多, 會導致還沒吃成胖子就已經被撐死的. 所以我們要對為了做壓力測試而早已在Kafka中囤積多時的幾十萬條訊息分批次進行處理, 畢竟實際跑起的時候每秒擁入

mysql：21個性能優化最佳實踐之16[垂直分割]

垂直分割 “垂直分割”是一種把資料庫中的表按列變成幾張表的方法，這樣可以降低表的複雜度和欄位的數目，從而達到優化的目的。(以前，在銀行做過專案，見過一張表有100多個欄位，很恐怖) 　　示例一：在Users表中有一個欄位是家庭地址，這個欄位是可選欄位，相比

Spark實踐之join優化

相關推薦