spark常見問題分析

阿新 • • 發佈：2018-12-11

分析

spark常見的問題不外乎oom：

我們首先看一下Spark 的記憶體模型：

Spark在一個Executor中的記憶體分為三塊，一塊是execution記憶體，一塊是storage記憶體，一塊是other記憶體。

execution記憶體是執行記憶體，文件中說join，aggregate都在這部分記憶體中執行，shuffle的資料也會先快取在這個記憶體中，滿了再寫入磁碟，能夠減少IO。其實map過程也是在這個記憶體中執行的。

storage記憶體是儲存broadcast，cache，persist資料的地方。

other記憶體是程式執行時預留給自己的記憶體。

OOM的問題通常出現在execution這塊記憶體中，因為storage這塊記憶體在存放資料滿了之後，會直接丟棄記憶體中舊的資料，對效能有影響但是不會有OOM的問題。

Spark中的OOM問題不外乎以下三種情況

map執行中記憶體溢位shuffle後記憶體溢位driver記憶體溢位 前兩種情況發生在executor中,最後情況發生在driver中

我們針對每種情況具體分析

Driver heap：

Driver heap OOM的三大原因: (1).使用者在Driver埠生成大物件, 比如建立了一個大的集合資料結構解決思路: 1.1. 考慮將該大物件轉化成Executor端載入. 例如呼叫sc.textFile/sc.hadoopFile等 1.2. 如若無法避免, 自我評估該大物件佔用的記憶體, 相應增加driver-memory的值 (2).從Executor端收集資料回Driver端比如Collect. 某個Stage中Executor端發回的所有資料量不能超過spark.driver.maxResultSize，預設1g. 如果使用者增加該值, 請對應增加2delta increase到Driver Memory, resultSize該值只是資料序列化之後的Size, 如果是Collect的操作會將這些資料反序列化收集, 此時真正所需記憶體需要膨脹2-5倍, 甚至10倍.解決思路:

2.1. 本身不建議將大的資料從Executor端, collect回來. 建議將Driver端對collect回來的資料所做的操作, 轉化成Executor端RDD操作. 2.2. 如若無法避免, 自我評collect需要的記憶體, 相應增加driver-memory的值 (3)Spark本身框架的資料消耗. 現在在Spark1.6版本之後主要由Spark UI資料消耗, 取決於作業的累計Task個數.解決思路: 3.1. 考慮縮小大numPartitions的Stage的partition個數, 例如從HDFS load的partitions一般自動計算, 但是後續使用者的操作中做了過濾等操作已經大大減少資料量, 此時可以縮小Parititions。 3.2. 通過引數spark.ui.retainedStages(預設1000)/spark.ui.retainedJobs(預設1000)控制. 3.3. 實在沒法避免, 相應增加記憶體.

Executor heap:

map過程產生大量物件導致記憶體溢位：資料傾斜導致記憶體溢位：coalesce呼叫導致記憶體溢位：shuffle後記憶體溢位： (1) reduce oom？原因：reduce task 去map端獲取資料，reduce一邊拉取資料一邊聚合，reduce端有一塊聚合記憶體（executor memory * 0.2）,也就是這塊記憶體不夠解決方法： 1.增加reduce 聚合操作的記憶體的比例 2.增加Executor memory的大小 --executor-memory 5G 3.減少reduce task每次拉取的資料量設定spak.reducer.maxSizeInFlight 24m, 拉取的次數就多了，因此建立連線的次數增多，有可能會連線不上（正好趕上map task端進行GC）

(2) shuffle file cannot find or executor lost？解決方法： 當出現以下異常時：shuffle file cannot find，executor lost、task lost，out of memory，可以調節

(3) Executor的堆外記憶體大小問題原因： 1.map task所執行的executor記憶體不足，導致executor 掛掉了，executor裡面的BlockManager就掛掉了，導致ConnectionManager不能用，也就無法建立連線，從而不能拉取資料 2.executor並沒有掛掉 2.1 BlockManage之間的連線失敗（map task所執行的executor正在GC） 2.2建立連線成功，map task所執行的executor正在GC 3.reduce task向Driver中的MapOutputTracker獲取shuffle file位置的時候出現了問題解決方法： 1.增大Executor記憶體(即堆內記憶體) ，申請的堆外記憶體也會隨之增加--executor-memory 5G 2.增大堆外記憶體 --conf spark.yarn.executor.memoryoverhead 2048M --conf spark.executor.memoryoverhead 2048M (預設申請的堆外記憶體是Executor記憶體的10%，真正處理大資料的時候，這裡都會出現問題，導致spark作業反覆崩潰，無法執行；此時就會去調節這個引數，到至少1G（1024M），甚至說2G、4G）

注:在shuffle過程中可調的引數：

spark.shuffle.file.buffer 預設值：32k 引數說明：該引數用於設定shuffle write task的BufferedOutputStream的buffer緩衝大小。將資料寫到磁碟檔案之前，會先寫入buffer緩衝中，待緩衝寫滿之後，才會溢寫到磁碟。調優建議：如果作業可用的記憶體資源較為充足的話，可以適當增加這個引數的大小（比如64k），從而減少shuffle write過程中溢寫磁碟檔案的次數，也就可以減少磁碟IO次數，進而提升效能。在實踐中發現，合理調節該引數，效能會有1%~5%的提升。注：shuffle中有以下操作會使用到該引數：map端：spill、合併檔案時

spark.reducer.maxSizeInFlight 預設值：48m 引數說明：該引數用於設定shuffle read task的buffer緩衝大小，而這個buffer緩衝決定了每次能夠拉取多少資料。調優建議：如果作業可用的記憶體資源較為充足的話，可以適當增加這個引數的大小（比如96m），從而減少拉取資料的次數，也就可以減少網路傳輸的次數，進而提升效能。在實踐中發現，合理調節該引數，效能會有1%~5%的提升。錯誤：reduce oom reduce task去map拉資料，reduce 一邊拉資料一邊聚合 reduce段有一塊聚合記憶體（executor memory * 0.2）解決辦法：1、增加reduce 聚合的記憶體的比例設定spark.shuffle.memoryFraction 2、增加executor memory的大小 --executor-memory 5G 3、減少reduce task每次拉取的資料量設定spark.reducer.maxSizeInFlight 24m

spark.shuffle.io.maxRetries 預設值：3 引數說明：shuffle read task從shuffle write task所在節點拉取屬於自己的資料時，如果因為網路異常導致拉取失敗，是會自動進行重試的。該引數就代表了可以重試的最大次數。如果在指定次數之內拉取還是沒有成功，就可能會導致作業執行失敗。調優建議：對於那些包含了特別耗時的shuffle操作的作業，建議增加重試最大次數（比如60次），以避免由於JVM的full gc或者網路不穩定等因素導致的資料拉取失敗。在實踐中發現，對於針對超大資料量（數十億~上百億）的shuffle過程，調節該引數可以大幅度提升穩定性。 shuffle file not find taskScheduler不負責重試task，由DAGScheduler負責重試stage

spark.shuffle.io.retryWait 預設值：5s 引數說明：具體解釋同上，該引數代表了每次重試拉取資料的等待間隔，預設是5s。調優建議：建議加大間隔時長（比如60s），以增加shuffle操作的穩定性。

spark.shuffle.memoryFraction 預設值：0.2 引數說明：該引數代表了Executor記憶體中，分配給shuffle read task進行聚合操作的記憶體比例，預設是20%。調優建議：在資源引數調優中講解過這個引數。如果記憶體充足，而且很少使用持久化操作，建議調高這個比例，給shuffle read的聚合操作更多記憶體，以避免由於記憶體不足導致聚合過程中頻繁讀寫磁碟。在實踐中發現，合理調節該引數可以將效能提升10%左右。

spark.shuffle.manager 預設值：sort 引數說明：該引數用於設定ShuffleManager的型別。Spark 1.5以後，有三個可選項：hash、sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的預設選項，但是Spark 1.2以及之後的版本預設都是SortShuffleManager了。tungsten-sort與sort類似，但是使用了tungsten計劃中的堆外記憶體管理機制，記憶體使用效率更高。調優建議：由於SortShuffleManager預設會對資料進行排序，因此如果你的業務邏輯中需要該排序機制的話，則使用預設的SortShuffleManager就可以；而如果你的業務邏輯不需要對資料進行排序，那麼建議參考後面的幾個引數調優，通過bypass機制或優化的HashShuffleManager來避免排序操作，同時提供較好的磁碟讀寫效能。這裡要注意的是，tungsten-sort要慎用，因為之前發現了一些相應的bug。

spark.shuffle.sort.bypassMergeThreshold 預設值：200 引數說明：當ShuffleManager為SortShuffleManager時，如果shuffle read task的數量小於這個閾值（預設是200），則shuffle write過程中不會進行排序操作，而是直接按照未經優化的HashShuffleManager的方式去寫資料，但是最後會將每個task產生的所有臨時磁碟檔案都合併成一個檔案，並會建立單獨的索引檔案。調優建議：當你使用SortShuffleManager時，如果的確不需要排序操作，那麼建議將這個引數調大一些，大於shuffle read task的數量。那麼此時就會自動啟用bypass機制，map-side就不會進行排序了，減少了排序的效能開銷。但是這種方式下，依然會產生大量的磁碟檔案，因此shuffle write效能有待提高。

spark.shuffle.consolidateFiles 預設值：false 引數說明：如果使用HashShuffleManager，該引數有效。如果設定為true，那麼就會開啟consolidate機制，會大幅度合併shuffle write的輸出檔案，對於shuffle read task數量特別多的情況下，這種方法可以極大地減少磁碟IO開銷，提升效能。調優建議：如果的確不需要SortShuffleManager的排序機制，那麼除了使用bypass機制，還可以嘗試將spark.shffle.manager引數手動指定為hash，使用HashShuffleManager，同時開啟consolidate機制。在實踐中嘗試過，發現其效能比開啟了bypass機制的SortShuffleManager要高出10%~30%。

spark常見問題分析

分析

spark常見的問題不外乎oom：

我們首先看一下Spark 的記憶體模型：

Spark中的OOM問題不外乎以下三種情況

我們針對每種情況具體分析

Driver heap：

Executor heap:

注:在shuffle過程中可調的引數：

spark常見問題分析

Spark日誌分析項目Demo(9)--常規性能調優

Spark提交應用程序之Spark-Submit分析

Spark原始碼分析之Spark Shell（上）

spark-shuffle分析

Python基礎（六）--- Python爬蟲，Python整合Hbase，PythonWorldCount，Spark資料分析生成分析圖表

SPARK 原始碼分析技術分享(帶bilibili視訊)

Spark 原始碼分析之ShuffleMapTask處理

Spark原始碼分析之ResultTask處理

Spark原始碼分析之ShuffleMapTask處理

Spark常見程式設計問題解決辦法及優化

spark原始碼分析--事件匯流排LiveListenerBus

Spark 原始碼分析之ShuffleMapTask記憶體資料Spill和合並

Spark SQL 分析 Nginx 訪問日誌

Spark常見問題解決

Spark文章分析

大資料學習筆記(spark日誌分析案例)

spark常見運算元操作

Spark互動式分析平臺Apache Zeppelin的安裝

Maven+scala+spark常見問題總結

spark常見問題分析

分析

spark常見的問題不外乎oom：

我們首先看一下Spark 的記憶體模型：

Spark中的OOM問題不外乎以下三種情況

我們針對每種情況具體分析

Driver heap：

Executor heap:

注:在shuffle過程中可調的引數：

相關推薦