spark常見問題分析
分析
spark常見的問題不外乎oom:
我們首先看一下Spark 的記憶體模型:
Spark在一個Executor中的記憶體分為三塊,一塊是execution記憶體,一塊是storage記憶體,一塊是other記憶體。
execution記憶體是執行記憶體,文件中說join,aggregate都在這部分記憶體中執行,shuffle的資料也會先快取在這個記憶體中,滿了再寫入磁碟,能夠減少IO。其實map過程也是在這個記憶體中執行的。
storage記憶體是儲存broadcast,cache,persist資料的地方。
other記憶體是程式執行時預留給自己的記憶體。
OOM的問題通常出現在execution這塊記憶體中,因為storage這塊記憶體在存放資料滿了之後,會直接丟棄記憶體中舊的資料,對效能有影響但是不會有OOM的問題。
Spark中的OOM問題不外乎以下三種情況
map執行中記憶體溢位shuffle後記憶體溢位driver記憶體溢位 前兩種情況發生在executor中,最後情況發生在driver中
我們針對每種情況具體分析
Driver heap:
Driver heap OOM的三大原因:
(1).使用者在Driver埠生成大物件, 比如建立了一個大的集合資料結構解決思路:
1.1. 考慮將該大物件轉化成Executor端載入. 例如呼叫sc.textFile/sc.hadoopFile等
1.2. 如若無法避免, 自我評估該大物件佔用的記憶體, 相應增加driver-memory的值
(2).從Executor端收集資料回Driver端
比如Collect. 某個Stage中Executor端發回的所有資料量不能超過spark.driver.maxResultSize,預設1g. 如果使用者增加該值, 請對應增加2delta increase到Driver Memory, resultSize該值只是資料序列化之後的Size, 如果是Collect的操作會將這些資料反序列化收集, 此時真正所需記憶體需要膨脹2-5倍, 甚至10倍.解決思路:
Executor heap:
map過程產生大量物件導致記憶體溢位:資料傾斜導致記憶體溢位:coalesce呼叫導致記憶體溢位:shuffle後記憶體溢位: (1) reduce oom? 原因:reduce task 去map端獲取資料,reduce一邊拉取資料一邊聚合,reduce端有一塊聚合記憶體(executor memory * 0.2),也就是這塊記憶體不夠解決方法: 1.增加reduce 聚合操作的記憶體的比例 2.增加Executor memory的大小 --executor-memory 5G 3.減少reduce task每次拉取的資料量 設定spak.reducer.maxSizeInFlight 24m, 拉取的次數就多了,因此建立連線的次數增多,有可能會連線不上(正好趕上map task端進行GC)
(2) shuffle file cannot find or executor lost?解決方法: 當出現以下異常時:shuffle file cannot find,executor lost、task lost,out of memory,可以調節
(3) Executor的堆外記憶體大小 問題原因: 1.map task所執行的executor記憶體不足,導致executor 掛掉了,executor裡面的BlockManager就掛掉了,導致ConnectionManager不能用,也就無法建立連線,從而不能拉取資料 2.executor並沒有掛掉 2.1 BlockManage之間的連線失敗(map task所執行的executor正在GC) 2.2建立連線成功,map task所執行的executor正在GC 3.reduce task向Driver中的MapOutputTracker獲取shuffle file位置的時候出現了問題解決方法: 1.增大Executor記憶體(即堆內記憶體) ,申請的堆外記憶體也會隨之增加--executor-memory 5G 2.增大堆外記憶體 --conf spark.yarn.executor.memoryoverhead 2048M --conf spark.executor.memoryoverhead 2048M (預設申請的堆外記憶體是Executor記憶體的10%,真正處理大資料的時候,這裡都會出現問題,導致spark作業反覆崩潰,無法執行;此時就會去調節這個引數,到至少1G(1024M),甚至說2G、4G)
注:在shuffle過程中可調的引數:
spark.shuffle.file.buffer 預設值:32k 引數說明:該引數用於設定shuffle write task的BufferedOutputStream的buffer緩衝大小。將資料寫到磁碟檔案之前,會先寫入buffer緩衝中,待緩衝寫滿之後,才會溢寫到磁碟。 調優建議:如果作業可用的記憶體資源較為充足的話,可以適當增加這個引數的大小(比如64k),從而減少shuffle write過程中溢寫磁碟檔案的次數,也就可以減少磁碟IO次數,進而提升效能。在實踐中發現,合理調節該引數,效能會有1%~5%的提升。 注:shuffle中有以下操作會使用到該引數:map端:spill、合併檔案時
spark.reducer.maxSizeInFlight 預設值:48m 引數說明:該引數用於設定shuffle read task的buffer緩衝大小,而這個buffer緩衝決定了每次能夠拉取多少資料。 調優建議:如果作業可用的記憶體資源較為充足的話,可以適當增加這個引數的大小(比如96m),從而減少拉取資料的次數,也就可以減少網路傳輸的次數,進而提升效能。在實踐中發現,合理調節該引數,效能會有1%~5%的提升。 錯誤:reduce oom reduce task去map拉資料,reduce 一邊拉資料一邊聚合 reduce段有一塊聚合記憶體(executor memory * 0.2) 解決辦法:1、增加reduce 聚合的記憶體的比例 設定spark.shuffle.memoryFraction 2、 增加executor memory的大小 --executor-memory 5G 3、減少reduce task每次拉取的資料量 設定spark.reducer.maxSizeInFlight 24m
spark.shuffle.io.maxRetries 預設值:3 引數說明:shuffle read task從shuffle write task所在節點拉取屬於自己的資料時,如果因為網路異常導致拉取失敗,是會自動進行重試的。該引數就代表了可以重試的最大次數。如果在指定次數之內拉取還是沒有成功,就可能會導致作業執行失敗。 調優建議:對於那些包含了特別耗時的shuffle操作的作業,建議增加重試最大次數(比如60次),以避免由於JVM的full gc或者網路不穩定等因素導致的資料拉取失敗。在實踐中發現,對於針對超大資料量(數十億~上百億)的shuffle過程,調節該引數可以大幅度提升穩定性。 shuffle file not find taskScheduler不負責重試task,由DAGScheduler負責重試stage
spark.shuffle.io.retryWait 預設值:5s 引數說明:具體解釋同上,該引數代表了每次重試拉取資料的等待間隔,預設是5s。 調優建議:建議加大間隔時長(比如60s),以增加shuffle操作的穩定性。
spark.shuffle.memoryFraction 預設值:0.2 引數說明:該引數代表了Executor記憶體中,分配給shuffle read task進行聚合操作的記憶體比例,預設是20%。 調優建議:在資源引數調優中講解過這個引數。如果記憶體充足,而且很少使用持久化操作,建議調高這個比例,給shuffle read的聚合操作更多記憶體,以避免由於記憶體不足導致聚合過程中頻繁讀寫磁碟。在實踐中發現,合理調節該引數可以將效能提升10%左右。
spark.shuffle.manager 預設值:sort 引數說明:該引數用於設定ShuffleManager的型別。Spark 1.5以後,有三個可選項:hash、sort和tungsten-sort。HashShuffleManager是Spark 1.2以前的預設選項,但是Spark 1.2以及之後的版本預設都是SortShuffleManager了。tungsten-sort與sort類似,但是使用了tungsten計劃中的堆外記憶體管理機制,記憶體使用效率更高。 調優建議:由於SortShuffleManager預設會對資料進行排序,因此如果你的業務邏輯中需要該排序機制的話,則使用預設的SortShuffleManager就可以;而如果你的業務邏輯不需要對資料進行排序,那麼建議參考後面的幾個引數調優,通過bypass機制或優化的HashShuffleManager來避免排序操作,同時提供較好的磁碟讀寫效能。這裡要注意的是,tungsten-sort要慎用,因為之前發現了一些相應的bug。
spark.shuffle.sort.bypassMergeThreshold 預設值:200 引數說明:當ShuffleManager為SortShuffleManager時,如果shuffle read task的數量小於這個閾值(預設是200),則shuffle write過程中不會進行排序操作,而是直接按照未經優化的HashShuffleManager的方式去寫資料,但是最後會將每個task產生的所有臨時磁碟檔案都合併成一個檔案,並會建立單獨的索引檔案。 調優建議:當你使用SortShuffleManager時,如果的確不需要排序操作,那麼建議將這個引數調大一些,大於shuffle read task的數量。那麼此時就會自動啟用bypass機制,map-side就不會進行排序了,減少了排序的效能開銷。但是這種方式下,依然會產生大量的磁碟檔案,因此shuffle write效能有待提高。
spark.shuffle.consolidateFiles 預設值:false 引數說明:如果使用HashShuffleManager,該引數有效。如果設定為true,那麼就會開啟consolidate機制,會大幅度合併shuffle write的輸出檔案,對於shuffle read task數量特別多的情況下,這種方法可以極大地減少磁碟IO開銷,提升效能。 調優建議:如果的確不需要SortShuffleManager的排序機制,那麼除了使用bypass機制,還可以嘗試將spark.shffle.manager引數手動指定為hash,使用HashShuffleManager,同時開啟consolidate機制。在實踐中嘗試過,發現其效能比開啟了bypass機制的SortShuffleManager要高出10%~30%。