如何解決spark中的資料傾斜問題

阿新 • • 發佈：2019-02-05

發現數據傾斜的時候，不要急於提高executor的資源，修改引數或是修改程式，首先要檢查資料本身，是否存在異常資料。

1、資料問題造成的資料傾斜
- 找出異常的key
  - 如果任務長時間卡在最後最後1個(幾個)任務，首先要對key進行抽樣分析，判斷是哪些key造成的。選取key，對資料進行抽樣，統計出現的次數，根據出現次數大小排序取出前幾個。
  - 比如: df.select("key").sample(false,0.1).(k=>(k,1)).reduceBykey(+).map(k=>(k.2,k.1)).sortByKey(false).take(10)
  - 如果發現多數資料分佈都較為平均，而個別資料比其他資料大上若干個數量級，則說明發生了資料傾斜。
- 經過分析，傾斜的資料主要有以下三種情況:
  - 1、null（空值）或是一些無意義的資訊()之類的,大多是這個原因引起。
  - 2、無效資料，大量重複的測試資料或是對結果影響不大的有效資料。
  - 3、有效資料，業務導致的正常資料分佈。
- 解決辦法
  - 第1，2種情況，直接對資料進行過濾即可（因為該資料對當前業務不會產生影響）。
  - 第3種情況則需要進行一些特殊操作，常見的有以下幾種做法
    - (1) 隔離執行，將異常的key過濾出來單獨處理，最後與正常資料的處理結果進行union操作。
    - (2) 對key先新增隨機值，進行操作後，去掉隨機值，再進行一次操作。
    - (3) 使用reduceByKey 代替 groupByKey(reduceByKey用於對每個key對應的多個value進行merge操作，最重要的是它能夠在本地先進行merge操作，並且merge操作可以通過函式自定義.)
    - (4) 使用map join。
- 案例
  - 如果使用reduceByKey因為資料傾斜造成執行失敗的問題。具體操作流程如下:
    - (1) 將原始的 key 轉化為 key + 隨機值(例如Random.nextInt)
    - (2) 對資料進行 reduceByKey(func)
    - (3) 將 key + 隨機值轉成 key
    - (4) 再對資料進行 reduceByKey(func)
- 案例操作流程分析：
  - 假設說有傾斜的Key，我們給所有的Key加上一個隨機數，然後進行reduceByKey操作；此時同一個Key會有不同的隨機數字首，在進行reduceByKey操作的時候原來的一個非常大的傾斜的Key就分而治之變成若干個更小的Key，不過此時結果和原來不一樣，怎麼破？進行map操作，目的是把隨機數字首去掉，然後再次進行reduceByKey操作。（當然，如果你很無聊，可以再次做隨機數字首），這樣我們就可以把原本傾斜的Key通過分而治之方案分散開來，最後又進行了全域性聚合
  - 注意1: 如果此時依舊存在問題，建議篩選出傾斜的資料單獨處理。最後將這份資料與正常的資料進行union即可。
  - 注意2: 單獨處理異常資料時，可以配合使用Map Join解決。
2、spark使用不當造成的資料傾斜
- 提高shuffle並行度
  - dataFrame和sparkSql可以設定spark.sql.shuffle.partitions引數控制shuffle的併發度，預設為200。
  - rdd操作可以設定spark.default.parallelism控制併發度，預設引數由不同的Cluster Manager控制。
  - 侷限性: 只是讓每個task執行更少的不同的key。無法解決個別key特別大的情況造成的傾斜，如果某些key的大小非常大，即使一個task單獨執行它，也會受到資料傾斜的困擾。
  - 使用map join 代替reduce join
  - 侷限性: 因為是先將小資料傳送到每個executor上，所以資料量不能太大。

大資料之Spark（二）--- RDD，RDD變換，RDD的Action，解決spark的資料傾斜問題，spark整合hadoop的HA

一、Spark叢集執行 ------------------------------------------------------- 1.local //本地模式 2.standalone //獨立模式 3.yarn //yarn模式

解決spark中遇到的資料傾斜問題

一. 資料傾斜的現象多數task執行速度較快,少數task執行時間非常長，或者等待很長時間後提示你記憶體不足，執行失敗。二. 資料傾斜的原因常見於各種shuffle操作，例如reduceByKey,groupByKey,join等操作。資

如何解決spark中的資料傾斜問題

發現數據傾斜的時候，不要急於提高executor的資源，修改引數或是修改程式，首先要檢查資料本身，是否存在異常資料。 1、資料問題造成的資料傾斜找出異常的key 如果任務長時間卡在最後最後1個(幾個)任務，首先要對key進行抽樣分析，判斷是哪些

spark1.x-spark-sql-資料傾斜解決方案

聚合源資料過濾導致傾斜的key where條件提高shuffle並行度 spark.sql.shuffle.partitions sqlContext.setConf("spark.sql.shuffle.partitions","1000")

Spark性能調優之道——解決Spark數據傾斜（Data Skew）的N種姿勢

sca ace 便是 triplet 大小 spark 構建由於 itl 原文：http://blog.csdn.net/tanglizhe1105/article/details/51050974 背景很多使用Spark的朋友很想知道rdd

Spark性能優化之道——解決Spark數據傾斜（Data Skew）的N種姿勢

至少 array 效率提升 default executors 並行處理 foreach shp 來源原創文章，轉載請務必將下面這段話置於文章開頭處。本文轉發自技術世界，原文鏈接　http://www.jasongj.com/spark/skew/ 摘要本文結合

商城購物車加減控制元件的簡單封裝（續），解決ListView中資料錯亂的問題

在上一篇文章中，我們學習了商城購物車加減控制元件的簡單封裝，知道了封裝的思路過程和使用方法。還沒有看過上一篇文章的朋友，建議先去閱讀商城購物車加減控制元件的簡單封裝。這段時間收到一些小夥伴的反饋，在ListView或者是RecyclerView中存在ite

spark資料傾斜分析與解決方案

Spark資料傾斜(資料分佈不均勻) 資料傾斜發生時的現象：絕大多數task（任務）執行得都非常快，但個別task執行極慢。 OOM(記憶體溢位)，這種情況比較少見。資料傾斜發生的原理資料傾斜的原理很簡單：在進行shuffle的時候，必須將各個節點上相同的k

Spark專案實戰-資料傾斜解決方案之原理以及現象分析

一、資料傾斜的原理在執行shuffle操作的時候，大家都知道是按照key來進行values的資料的輸出、拉取和聚合的。同一個key的values，一定是分配到一個reduce task進行處理的。假設多個key對應的values，總共是90萬。但是問題是可能某個key對應

Spark專案實戰-資料傾斜解決方案之將reduce join轉換為map join

一、reduce端join操作原理二、map端join操作原理三、適用場景如果兩個RDD要進行join，其中一個RDD是比較小的。一個RDD是100萬資料，一個RDD是1萬資料。（一個RDD是1億資料，一個RDD是100萬資料）其中一個RDD必須是比較

Spark 執行時常見異常及資料傾斜的解決方法

spark執行異常：現象1：有時會出現的一種情況非常普遍，在spark的作業中；shuffle file not found。（spark作業中，非常非常常見的）而且，有的時候，它是偶爾才會出現的一種情況。有的時候，出現這種情況以後，會重新去

spark 大型專案實戰(五十八):資料傾斜解決方案之sample取樣傾斜key進行兩次join

當採用隨機數和擴容表進行join解決資料傾斜的時候，就代表著，你的之前的資料傾斜的解決方案，都沒法使用。這個方案是沒辦法徹底解決資料傾斜的，更多的，是一種對資料傾斜的緩解。原理，其實在上一講，已經帶出來了。步驟： 1、選擇一個RDD，要用flatM

Spark資料傾斜及解決方案

一.場景　　1.絕大多數task執行得都非常快，但個別task執行極慢。比如，總共有100個task，97個task都在1s之內執行完了，但是剩餘的task卻要一兩分鐘。這種情況很常見。　　2.原本能夠正常執行的Spark作業，某天突然報出OOM(記憶體溢位)，觀察異常棧，是我們寫的業務程式碼造成的。

《深入理解Spark》之通過自定義分割槽器解決資料傾斜問題

package com.lyzx.day37 import org.apache.spark.{Partitioner, SparkConf, SparkContext} class D1 { //partitionBy和自定義分割槽器解決資料傾斜的問題 def

Spark資料傾斜的完美解決

資料傾斜解決方案資料傾斜的解決，跟之前講解的效能調優，有一點異曲同工之妙。效能調優中最有效最直接最簡單的方式就是加資源加並行度，並注意RDD架構（複用同一個RDD，加上cache快取）。相對於前面，shuffle、jvm等是次要的。6.1、原理以及現象分析6.1.1、資料傾斜

Spark效能優化之道——解決Spark資料傾斜（Data Skew）的N種姿勢

摘要本文結合例項詳細闡明瞭Spark資料傾斜的幾種場景以及對應的解決方案，包括避免資料來源傾斜，調整並行度，使用自定義Partitioner，使用Map側Join代替Reduce側Join，給傾斜Key加上隨機字首等。為何要處理資料傾斜（Da

Spark效能調優之道——解決Spark資料傾斜（Data Skew）的N種姿勢

為何要處理資料傾斜（Data Skew）什麼是資料傾斜對Spark/Hadoop這樣的大資料系統來講，資料量大並不可怕，可怕的是資料傾斜。何謂資料傾斜？資料傾斜指的是，並行處理的資料集中，某一部分（如Spark或Kafka的一個Partition）的資料顯著多於其它

工作采坑劄記：3. Spark中es-hadoop插件異常解決

-h adp elastic sed thread ould dex flush 文檔 1. Es-Hadoop異常： org.elasticsearch.hadoop.EsHadoopException: Could not write all entries [61

hive資料傾斜解決方法

Hive的過程中經常會碰到資料傾斜問題,資料傾斜基本都發生在group、join等需要資料shuffle的操作中,這些過程需要按照key值進行資料彙集處理,如果key值過於集中,在彙集過程中大部分資料彙集到一臺機器上,這就會導致資料傾斜。具體表現為：作業經常reduce完成在99%後一

解決EasyUi中的DataGrid刪除一條記錄後，被刪除的資料仍處於被選中狀態問題

專案中遇到這麼一個問題，在easyui的datagrid中，刪除一條記錄成功，重新載入datagrid後，去點編輯操作，仍可把之前刪除掉的那條記錄進行編輯操作，正常情況應該是，刪除後再去點選“編輯”，應提示沒有被選中的記錄。現在這個情景說明，在datagrid刪除資料重新載入後，當datagrid呼叫getS

如何解決spark中的資料傾斜問題

相關推薦