spark 機制原理自問自答

阿新 • • 發佈：2019-02-15

本文主要收錄spark學習和工作中思考的問題。

1、當Spark task failed，什麼情況下task重計算，什麼情況下stage重計算？

答：如果task失敗是因為shuffle output files lost，則DAGScheduler會對stage重提交計算；如果不是因為shuffle file lost，則選擇resubmit task。這是因為shuffle output file lost涉及stage之間的失誤，需要上游重提交stage產生新的shuffle output檔案。

2、引數spark.yarn.executor.memoryOverhead與引數spark.memory.offHeap.size都表示堆外記憶體大小，有什麼區別？

答：作用不同。因為spark.yarn.executor.memoryOverhead表示Executor自身JVM程序需要的記憶體開銷，spark.memory.offHeap.size表示rdd計算執行和資料儲存使用的offheap（預設計算和儲存各佔50%，由引數spark.memory.storageFraction控制）。

3、關於shuffle write、shuffle spill (memory)、shuffle spill (disk)概念有什麼區別？

shuffle spill memory：表示spill過程中沒有序列化的在記憶體的資料。
shuffle spill disk：表示spill結束後spill到disk的序列化後的資料。

shuffle write：表示資料在executor之間移動，例如join、groupBy等操作。

shuffle spill跟shuffle write總體上來說不是同一型別的操作，shuffle spill表示executor記憶體不足以存放資料，從而spill到其他位置；shuffle write表示executor之間的資料傳遞大小。

參考連結

spark 機制原理自問自答

1、當Spark task failed，什麼情況下task重計算，什麼情況下stage重計算？

2、引數spark.yarn.executor.memoryOverhead與引數spark.memory.offHeap.size都表示堆外記憶體大小，有什麼區別？

3、關於shuffle write、shuffle spill (memory)、shuffle spill (disk)概念有什麼區別？

spark 機制原理自問自答

自問自答之試題

有史以來最精彩的自問自答：OpenAI 轉方塊的機械手

[python]自問自答：python -m引數？（ python3.7 版本）

自問自答2——深度學習中梯度消失/爆炸為什麼是一個問題？(待完善）

Spark核心原始碼深度剖析：Master註冊機制原理剖析與原始碼分析

Spark原始碼分析之Master註冊機制原理

安卓自定義View進階-事件分發機制原理

數字證書原理 - 轉自 http://www.cnblogs.com/JeffreySun/archive/2010/06/24/1627247.html

Unity3D學習（一）：簡單梳理下Unity跨平臺的機制原理

java的反射機制原理

Android Handler 消息機制原理解析

Android Handler 機制原理（轉）

DNS 緩存機制原理

大數據入門第二十二天——spark（三）自定義分區、排序與查找

JVM 及垃圾回收機制原理

關於Python的import機制原理

Hystrix 熔斷機制原理

【譯】.Net 垃圾回收機制原理（轉）

spark啟動原理總結

spark 機制原理自問自答

1、當Spark task failed，什麼情況下task重計算，什麼情況下stage重計算？

2、引數spark.yarn.executor.memoryOverhead與引數spark.memory.offHeap.size都表示堆外記憶體大小，有什麼區別？

3、關於shuffle write、shuffle spill (memory)、shuffle spill (disk)概念有什麼區別？

相關推薦