Spark開發-Spark記憶體溢位原因以及解決方式

阿新 • • 發佈：2020-10-14

報錯情況

Container killed by YARN for exceeding memory limits. 1*.4 GB of 1* GB physical memory used. 
 Consider boosting spark.yarn.executor.memoryOverhead.

基本內容介紹：

1.executor 和 container
  01.Spark中的 executor 程序是跑在 container 中，所以container的最大記憶體會直接影響到executor的最大可用記憶體
  02. yarn.nodemanager.pmem-check-enabled 該引數預設是true，也就是會由它來控制監控container的記憶體使用
  03. yarn.scheduler.maximum-allocation-mb 設定值6114，也就是說單個container申請的最大記憶體是這麼多，
	   執行任務的時候你的executer需要的記憶體超出這個值，那麼就會被殺掉
	    container超過了記憶體的限制從而被kill掉
   04.executor執行的時候，用的記憶體可能會超過 executor-memory
        所以會為executor額外預留一部分記憶體。spark.yarn.executor.memoryOverhead 代表了這部分記憶體
		即實際的記憶體
		  val executorMem = args.executorMemory + executorMemoryOverhead
	05.memoryOverhead
    如果沒有設定 spark.yarn.executor.memoryOverhead ，則這部分的記憶體大小為
        math.max((MEMORY_OVERHEAD_FACTOR * executorMemory).toInt, MEMORY_OVERHEAD_MIN))
	   其中 MEMORY_OVERHEAD_FACTOR 預設為0.1, MEMORY_OVERHEAD_MIN 預設為384m executorMemory 為設定的 executor-memory
	    實際 executorMem= X+max(X*0.1,384)
		設定了的話 
		   executorMem=X +spark.yarn.executor.memoryOverhead  其中 X 是值 args.executorMemory
	06. executorMem 需要滿足的條件： executorMem< yarn.scheduler.maximum-allocation-mb 	

2.Yarn 中 contaimer 和 Spark中 partition 之間的關係   
   job會被切分成stages,每個stage切分成task,每個task單獨排程，可以把executor的jvm程序看做task執行池
   spark.executor.memory  每個executor使用的記憶體
    一個executor可以並行執行多個task，實際上一個executor是一個程序，task是executor裡的一個執行緒。
    一個task至少要獨佔executor裡的一個虛擬核心vcore， 一個task要佔用幾個核心，可以由.config("spark.task.cpus", 1)配置，預設是1即一個task佔用一個vcore
    同時並行執行的task最大數量 = executor數目 * (每個executor核數 / 每個task佔用核心數)
	總核數= executor-cores * num-executor
	 例如： 每個 executor具有3個 cores 理論上每個executor可以處理1-4個task
3.分割槽與Task的情況
     讀取階段
         01.從記憶體中建立 RDD：sc.parallelize(...)，那麼預設的分割槽數量為該程式所分配的資源的 CPU 數量。
         02.如果是讀取hdfs的檔案，
             一般來說，partition的數量等於檔案的數量。
             如果單個檔案的大小大於hdfs的分塊大小，partition的數量就等於 “檔案大小/分塊大小”。
             同時，也可以使用rdd的repartition方法重新劃分partition。
     運算階段
        經過不同的運算元計算後，分割槽數目又會變化
        Task 的數量是由 Partition 決定的
	在Spark中有兩類task，一類是shuffleMapTask，一類是resultTask，
	     第一類task的輸出是shuffle所需資料，
		 第二類task的輸出是result，

可能的原因：

1、資料出現了傾斜等原因導致其中一個 contaimer 記憶體負載太大 執行失敗
2.	Spark的shuffle部分使用了netty框架進行網路傳輸，但netty會申請堆外記憶體快取 Shuffle時，
    每個Reduce都需要獲取每個map對應的輸出，
    當一個reduce需要獲取的一個map資料比較大 超出配置的限制就報了這個錯。
	  通過spark.sql.adaptive.shuffle.targetPostShuffleInputSize 可設定每個 Reducer 讀取的目標資料量，其單位是位元組，預設值為 64 MB。

解決記憶體overhead的問題的方法是：

 1.將"spark.executor.memory" 從8g設定為12g。將記憶體調大
 2.將"spark.executor.cores"  從8設定為4。   將core的個數調小。
 3.將rdd/dateframe進行重新分割槽 。           重新分割槽(repartition)
 4.將"spark.yarn.executor.memoryOverhead"設定為最大值，可以考慮一下4096。這個數值一般都是2的次冪。

具體引數配置

set spark.sql.adaptive.repartition.enabled=true;
set spark.sql.shuffle.partitions=2000;
set spark.sql.adaptive.shuffle.targetPostShuffleInputSize=67108864;

專有名詞解釋

1.常用配置
   配置任務可用executor數量
   每個Executor佔用記憶體
   每個Executor的core數目  spark.executor.cores
  
  The maximum memory size of container to running driver 
    is determined  by 
  the sum of 
      spark.driver.memoryOverhead 
      spark.driver.memory.

  The maximum memory size of container to running executor
   is determined by 
  the sum of 
      spark.executor.memory, 
      spark.executor.memoryOverhead, 
      spark.memory.offHeap.size 
	  spark.executor.pyspark.memory.
 Shuffle Behavior
 Memory Management
    spark.memory.fraction
	 在Spark中，執行和儲存共享一個統一的區域M
	   代表整體JVM堆記憶體中M的百分比（預設0.6）。
	    剩餘的空間（40%）是為使用者資料結構、Spark內部metadata預留的，並在稀疏使用和異常大記錄的情況下避免OOM錯誤
	spark.memory.storageFraction

Note: Non-heap memory includes off-heap memory (when spark.memory.offHeap.enabled=true)
   and memory used by other driver processes (e.g. python process that goes with a PySpark driver) 
   and memory used by other non-driver processes running in the same container

spark.executor.memoryOverhead
    This is memory that accounts for things like VM overheads, interned strings, other native overheads, etc.

spark.memory.offHeap.size
spark.memory.offHeap.enabled

原始碼

package org.apache.spark.deploy.yarn
    DRIVER_MEMORY_OVERHEAD
	EXECUTOR_MEMORY : Amount of memory to use per executor process
    EXECUTOR_MEMORY_OVERHEAD: The amount of off-heap memory to be allocated per executor in cluster mode
	EXECUTOR_CORES = ConfigBuilder("spark.executor.cores")
	EXECUTOR_MEMORY_OVERHEAD = ConfigBuilder("spark.yarn.executor.memoryOverhead")
     // Executor memory in MB.
      protected val executorMemory = sparkConf.get(EXECUTOR_MEMORY).toInt
      // Additional memory overhead.
      protected val memoryOverhead: Int = sparkConf.get(EXECUTOR_MEMORY_OVERHEAD).getOrElse(
        math.max((MEMORY_OVERHEAD_FACTOR * executorMemory).toInt, MEMORY_OVERHEAD_MIN)).toInt

	// Resource capability requested for each executors
     private[yarn] val resource = Resource.newInstance(executorMemory + memoryOverhead, executorCores)

package org.apache.spark.memory;
    public enum MemoryMode { ON_HEAP, OFF_HEAP}
	private[spark] abstract class MemoryManager(
      conf: SparkConf,
      numCores: Int,
      onHeapStorageMemory: Long,
      onHeapExecutionMemory: Long) extends Logging {
     # Tracks whether Tungsten memory will be allocated on the JVM heap or off-heap using sun.misc.Unsafe.
       final val tungstenMemoryMode: MemoryMode = {
         if (conf.getBoolean("spark.memory.offHeap.enabled", false)) {
           require(conf.getSizeAsBytes("spark.memory.offHeap.size", 0) > 0,
             "spark.memory.offHeap.size must be > 0 when spark.memory.offHeap.enabled == true")
           require(Platform.unaligned(),
             "No support for unaligned Unsafe. Set spark.memory.offHeap.enabled to false.")
           MemoryMode.OFF_HEAP
         } else {
           MemoryMode.ON_HEAP
         }
       }

參考：

  https://spark.apache.org/docs/latest/configuration.html
  https://spark.apache.org/docs/latest/running-on-yarn.html#configuration

Spark開發-Spark記憶體溢位原因以及解決方式

報錯情況 Container killed by YARN for exceeding memory limits. 1*.4 GB of 1* GB physical memory used.

jvm記憶體溢位原因及解決方案

記憶體溢位的原因及解決辦法：參考：https://wenku.baidu.com/view/02e3040c0366f5335a8102d276a20029bd64630f.html1.堆疊溢位

5種JVM垃圾收集器特點和8種JVM記憶體溢位原因

一、5種JVM垃圾收集器特點 1、常見垃圾收集器現在常見的垃圾收集器有如下幾種：

前端筆記（關於webpack打包時記憶體溢位問題的解決）

首先安裝increase-memory-limit cnpm install -g increase-memory-limit 重啟cmd，並在專案跟目錄中執行一下

MySQL OOM（記憶體溢位）的解決思路

OOM全稱\"Out Of Memory\"，即記憶體溢位。記憶體溢位已經是軟體開發歷史上存在了近40年的“老大難”問題。在作業系統上執行各種軟體時，軟體所需申請的記憶體遠遠超出了實體記憶體所承受的大小，就叫記憶體溢位。

MySQL死鎖的產生原因以及解決方案

資料庫和作業系統一樣，是一個多使用者使用的共享資源。當多個使用者併發地存取資料時，在資料庫中就會產生多個事務同時存取同一資料的情況。若對併發操作不加控制就可能會讀取和儲存不正確的資料，破壞資料庫的一致

MySQL主從複製延遲原因以及解決方案

來源：公眾號「神諭的暗影長廊」在非同步或半同步的複製結構中，從庫出現延遲是一件十分正常的事。

筆記本鍵盤打不出字?筆記本鍵盤失靈的原因以及解決方法詳解

相比臺式電腦，膝上型電腦因為良好的便捷性而更受人們的喜愛。膝上型電腦將所有的硬體以及配置合為一體，比如說顯示屏以及鍵盤，如果如果出現了問題就會顯得很難解決。最近有位朋友膝上型電腦的時候，發現筆記本鍵盤

Win10螢幕閃爍的原因以及解決方法

絕大部分使用Win10系統的使用者都碰到過螢幕閃爍的問題，這通常是因為運行了不相容的軟體或者顯示卡驅動出現了故障。那麼Win10螢幕閃爍是什麼原因呢？以下是Win10螢幕閃爍解決辦法。

MySQL選錯索引的原因以及解決方案

MySQL 中，可以為某張表指定多個索引，但在語句具體執行時，選用哪個索引是由 MySQL 中執行器確定的。那麼執行器選擇索引的原則是什麼，以及會不會出現選錯索引的情況呢？

Rabbit連線超時的原因以及解決方案

一、控制檯報以下連線超時錯誤二、原因分析 Linux安裝centos時會預設設定個主機名，通過檢視本地主機名，發現已修改其為hj，但是修改後的主機名並不在Linux的hosts檔案中

Spark開發-Spark中型別安全UDAF開發示例

Spark開發UDAF 通過對原始碼中的示例程式碼進行實際演練，對各個功能進行了解，以及排除開發中的錯誤

idea部署專案步驟以及bug出現的原因以及解決方案，類報紅，亂碼，404，500等

技術標籤：筆記ideajsp 解決bug 專案無法正常編譯 1、jdk報錯， StringInteger java自帶類報錯得，jdk版本不對應，jdk沒有配好

Spark開發-Spark中的設計模式_建立型模式大類

設計模式原則：建立型模式這些設計模式提供了一種在建立物件的同時隱藏建立邏輯的方式，而不是使用 new 運算子直接例項化物件。

過擬合與欠擬合的原因以及解決方案

作者：我執連結：https://zhuanlan.zhihu.com/p/271727854來源：知乎著作權歸作者所有。商業轉載請聯絡作者獲得授權，非商業轉載請註明出處。

Java 虛擬機器記憶體溢位問題和解決方法

什麼是記憶體溢位記憶體溢位是指應用系統中存在無法回收的記憶體或使用的記憶體過多，最終使得程式執行要用到的記憶體大於虛擬機器能提供的最大記憶體。

Linux網絡卡沒有eth0顯示ens33原因以及解決辦法

原因首先說明下eth0與ens33的關係: 目前的主流網絡卡為使用乙太網絡協定所開發出來的乙太網卡 (Ethernet)，因此我們 Linux 就稱呼這種網路介面為 ethN (N 為數字)。舉例來說，主機上面有一張乙太網卡，因此主機的網

django model的update時auto_now不被更新的原因及解決方式

gmt_create自動新增auto_now_add；gmt_modify自動更新auto_now class CommonInfo(models.Model): \"\"\"基類，提供共同資訊，不會建立真實的table\"\"\"

jupyter notebook 使用過程中python莫名崩潰的原因及解決方式

最近在使用 Python notebook時老是出現python崩潰的現象，如下圖，誘發的原因是“KERNELBASE.dll”，異常程式碼報“40000015”。

淺談Pycharm的專案檔名是紅色的原因及解決方式

今天在繼續學習Python時，開啟Pycharm後，發現有一個專案下的專案檔名是紅色的，如下圖：

Spark開發-Spark記憶體溢位原因以及解決方式

報錯情況

基本內容介紹：

可能的原因：

解決記憶體overhead的問題的方法是：

具體引數配置

專有名詞解釋

原始碼

參考：

相關推薦