spark資源調優

阿新 • • 發佈：2018-12-25

spark資源調優

所謂的Spark資源引數調優，其實主要就是對Spark執行過程中各個使用資源的地方，通過調節各種引數，來優化資源使用的效率，從而提升Spark作業的執行效能。以下引數就是Spark中主要的資源引數，每個引數都對應著作業執行原理中的某個部分，我們同時也給出了一個調優的參考值。

class

作業的主類

master

因為 MapReduce 使用 Yarn 的模式，所以這裡只能是 yarn 模式

yarn-client

等同於 –-master yarn —deploy-mode client，此時不需要指定deploy-mode。

yarn-cluster

等同於 –-master yarn —deploy-mode cluster，此時不需要指定deploy-mode。

deploy-mode

client 模式表示作業的 AM 會放在 Master 節點上執行。要注意的是，如果設定這個引數，那麼需要同時指定上面 master 為 yarn。

cluster

cluster 模式表示 AM 會隨機的在worker 節點中的任意一臺上啟動執行。要注意的是，如果設定這個引數，那麼需要同時指定上面 master 為yarn。

driver-memory

該引數用於設定Driver程序的記憶體。
引數調優建議：Driver的記憶體通常來說不設定，或者設定1G左右應該就夠了。唯一需要注意的一點是，如果需要使用collect運算元將RDD的資料全部拉取到Driver上進行處理，那麼必須確保Driver的記憶體足夠大，否則會出現OOM記憶體溢位的問題。 |

num-executors

引數說明：該引數用於設定Spark作業總共要用多少個Executor程序來執行。Driver在向YARN叢集管理器申請資源時，YARN叢集管理器會盡可能按照你的設定來在叢集的各個工作節點上，啟動相應數量的Executor程序。這個引數非常之重要，如果不設定的話，預設只會給你啟動少量的Executor程序，此時你的Spark作業的執行速度是非常慢的。

引數調優建議：每個Spark作業的執行一般設定50~100個左右的Executor程序比較合適，設定太少或太多的Executor程序都不好。設定的太少，無法充分利用叢集資源；設定的太多的話，大部分佇列可能無法給予充分的資源。

executor-memory

引數說明：該引數用於設定每個Executor程序的記憶體。Executor記憶體的大小，很多時候直接決定了Spark作業的效能，而且跟常見的JVM OOM異常，也有直接的關聯。
每個Executor程序的記憶體設定4G_{8G較為合適。但是這只是一個參考值，具體的設定還是得根據不同部門的資源佇列來定。可以看看自己團隊的資源佇列的最大記憶體限制是多少，num-executors乘以executor-memory，是不能超過佇列的最大記憶體量的。此外，如果你是跟團隊裡其他人共享這個資源佇列，那麼申請的記憶體量最好不要超過資源佇列最大總記憶體的1/3}1/2，避免你自己的Spark作業佔用了佇列所有的資源，導致別的同學的作業無法執行。

executor-cores

引數說明：該引數用於設定每個Executor程序的CPU core數量。這個引數決定了每個Executor程序並行執行task執行緒的能力。因為每個CPU core同一時間只能執行一個task執行緒，因此每個Executor程序的CPU core數量越多，越能夠快速地執行完分配給自己的所有task執行緒。
引數調優建議：Executor的CPU core數量設定為2~4個較為合適。同樣得根據不同部門的資源佇列來定，可以看看自己的資源佇列的最大CPU core限制是多少，再依據設定的Executor數量，來決定每個Executor程序可以分配到幾個CPU core。同樣建議，如果是跟他人共享這個佇列，那麼num-executors * executor-cores不要超過佇列總CPU core的1/3~1/2左右比較合適，也是避免影響其他同學的作業執行

spark.default.parallelism

引數說明：該引數用於設定每個stage的預設task數量。這個引數極為重要，如果不設定可能會直接影響你的Spark作業效能。
引數調優建議：Spark作業的預設task數量為500~1000個較為合適。很多同學常犯的一個錯誤就是不去設定這個引數，那麼此時就會導致Spark自己根據底層HDFS的block數量來設定task的數量，預設是一個HDFS block對應一個task。通常來說，Spark預設設定的數量是偏少的（比如就幾十個task），如果task數量偏少的話，就會導致你前面設定好的Executor的引數都前功盡棄。試想一下，無論你的Executor程序有多少個，記憶體和CPU有多大，但是task只有1個或者10個，那麼90%的Executor程序可能根本就沒有task執行，也就是白白浪費了資源！因此Spark官網建議的設定原則是，設定該引數為num-executors * executor-cores的2~3倍較為合適，比如Executor的總CPU core數量為300個，那麼設定1000個task是可以的，此時可以充分地利用Spark叢集的資源

spark.storage.memoryFraction

引數說明：該引數用於設定RDD持久化資料在Executor記憶體中能佔的比例，預設是0.6。也就是說，預設Executor 60%的記憶體，可以用來儲存持久化的RDD資料。根據你選擇的不同的持久化策略，如果記憶體不夠時，可能資料就不會持久化，或者資料會寫入磁碟。
引數調優建議：如果Spark作業中，有較多的RDD持久化操作，該引數的值可以適當提高一些，保證持久化的資料能夠容納在記憶體中。避免記憶體不夠快取所有的資料，導致資料只能寫入磁碟中，降低了效能。但是如果Spark作業中的shuffle類操作比較多，而持久化操作比較少，那麼這個引數的值適當降低一些比較合適。此外，如果發現作業由於頻繁的gc導致執行緩慢（通過spark web ui可以觀察到作業的gc耗時），意味著task執行使用者程式碼的記憶體不夠用，那麼同樣建議調低這個引數的值。

spark.shuffle.memoryFraction

引數說明：該引數用於設定shuffle過程中一個task拉取到上個stage的task的輸出後，進行聚合操作時能夠使用的Executor記憶體的比例，預設是0.2。也就是說，Executor預設只有20%的記憶體用來進行該操作。shuffle操作在進行聚合時，如果發現使用的記憶體超出了這個20%的限制，那麼多餘的資料就會溢寫到磁碟檔案中去，此時就會極大地降低效能。
引數調優建議：如果Spark作業中的RDD持久化操作較少，shuffle操作較多時，建議降低持久化操作的記憶體佔比，提高shuffle操作的記憶體佔比比例，避免shuffle過程中資料過多時記憶體不夠用，必須溢寫到磁碟上，降低了效能。此外，如果發現作業由於頻繁的gc導致執行緩慢，意味著task執行使用者程式碼的記憶體不夠用，那麼同樣建議調低這個引數的值。

資源引數的調優，沒有一個固定的值，需要同學們根據自己的實際情況（包括Spark作業中的shuffle運算元量、RDD持久化運算元量以及spark web ui中顯示的作業gc情況）

資源引數參考示例

./bin/spark-submit \
  --master yarn-cluster \
  --num-executors 100 \
  --executor-memory 6G \
  --executor-cores 4 \
  --driver-memory 1G \
  --conf spark.default.parallelism=1000 \
  --conf spark.storage.memoryFraction=0.5 \
  --conf spark.shuffle.memoryFraction=0.3 \

spark資源調優

spark資源調優所謂的Spark資源引數調優，其實主要就是對Spark執行過程中各個使用資源的地方，通過調節各種引數，來優化資源使用的效率，從而提升Spark作業的執行效能。以下引數就是Spark中主要的資源引數，每個引數都對應著作業執行原理中的某個部分，我們同時也給出了一個調優

spark性能調優之資源調優

重要 cnblogs logs 做的參數說明 span 分配比例 drive 轉https://tech.meituan.com/spark-tuning-basic.html spark作業原理使用spark-submit提交一個Spark作業之後，這個作

Spark學習之路（十二）SparkCore的調優之資源調優JVM的基本架構

程序員存儲 src ron 指示器引用 double strong 功能一、JVM的結構圖 1.1　Java內存結構 JVM內存結構主要有三大塊：堆內存、方法區和棧。堆內存是JVM中最大的一塊由年輕代和老年代組成，而年輕代內存又被分成三部分，Eden空間、

Spark學習之路（十二）SparkCore的調優之資源調優

限制無法數據 block 可能 executors 頻繁通過操作摘抄自：https://tech.meituan.com/spark-tuning-basic.html 一、概述在開發完Spark作業之後，就該為作業配置合適的資源了。Spark的資源參數，基

Spark學習之路（十四）SparkCore的調優之資源調優JVM的GC垃圾收集器

當前復制 event 只需要引用應用之前相互分享一、概述垃圾收集 Garbage Collection 通常被稱為“GC”，它誕生於1960年 MIT 的 Lisp 語言，經過半個多世紀，目前已經十分成熟了。 jvm 中，程序計數

轉 Spark效能優化：資源調優篇

前言在開發完Spark作業之後，就該為作業配置合適的資源了。Spark的資源引數，基本都可以在spark-submit命令中作為引數設定。很多Spark初學者，通常不知道該設定哪些必要的引數，以及如何設定這些引數，最後就只能胡亂設定，甚至壓根兒不設定。資源引數設定的不合理，可能會導致沒

Spark效能優化：資源調優篇

在開發完Spark作業之後，就該為作業配置合適的資源了。Spark的資源引數，基本都可以在spark-submit命令中作為引數設定。很多Spark初學者，通常不知道該設定哪些必要的引數，以及如何設定這些引數，最後就只能胡亂設定，甚至壓根兒不設定。資源引數設定的不合理，可能會

spark效能調優：資源優化

在開發完Spark作業之後，就該為作業配置合適的資源了。Spark的資源引數，基本都可以在spark-submit命令中作為引數設定。很多Spark初學者，通常不知道該設定哪些必要的引數，以及如何設定這些引數，最後就只能胡亂設定，甚至壓根兒不設定。資源引數設定的不合理，可能

Spark效能優化篇一：資源調優

Spark效能優化篇一：資源調優所謂的Spark資源引數調優，其實主要就是對Spark執行過程中各個使用資源的地方，通過調節各種引數，來優化資源使用的效率，從而提升Spark作業的執行效能。以下引數就是Spark中主要的資源引數

spark的調優

evel 重新清除效率外部負責取數拉取可能性一、持久化 1、概念一個RDD，執行多次操作，每次操作都需要計算得到這個RDD，持久化就是第一次計算的時候，把這個執行多次的RDD持久化到內存或磁盤，這個RDD就只計算一次，以後的多次操作都只需要從內存或磁盤讀

數據傾斜是多麽痛？spark作業調優秘籍

提前相同發生開始機制對數 .sql 提升部分目錄視圖摘要視圖訂閱【觀點】物聯網與大數據將助推工業應用的崛起，你認同麽？ CSDN日報20170703——《從高考到程序員——我一直在尋找答案》【直播】探究Li

Spark官方調優文檔翻譯（轉載）

區域 ng- 完整好的 java類型 int 單個 rdd 常見 Spark調優由於大部分Spark計算都是在內存中完成的，所以Spark程序的瓶頸可能由集群中任意一種資源導致，如：CPU、網絡帶寬、或者內存等。最常見的情況是，數據能裝進內存，而瓶頸是網絡帶寬；當

[Spark]-Streaming-調優

定性處理 min 流處理 str 集群 bsp 穩定實時計算 1.概述　　Spark Streaming的主要應用方向是實時計算.這代表一個Spark Streaming應用必然是對執行性能和運行穩定性(7 x 24)有一定要求的 2.性能　　在性能方面,主要是合理

spark--資源調度

技術任務調度 ges 啟動app bmi cut lib drive 充足在上一個博客裏，我們將一輛汽車的油箱、發動機進行了大體的說明了，汽車的最主要的功能已經說明了，那麽想讓汽車發動起來，我們應該怎麽辦呢？對，司機，我們現在還缺一個司機來使用這些資源，那麽這些資源是如

Spark應用程式開發引數調優深入剖析-Spark商業調優實戰

本套系列部落格從真實商業環境抽取案例進行總結和分享，並給出Spark商業應用實戰指導，請持續關注本套部落格。版權宣告：本套Spark商業應用實戰歸作者（秦凱新）所有，禁止轉載，歡迎學習。 Spark商業應用實戰-Spark資料傾斜案例測試及調優準則深入剖析 Spark商業應用實戰-Spark資源

Spark資源調度

.sh 管理方法 com -s serial boolean xtend tint 一：任務調度和資源調度的區別: 任務調度是指通過DAGScheduler，TaskScheduler，SchedulerBackend完成的job的調度資源調度是指應用程序獲取資源的調度

Spark Streaming調優引數及最佳實踐深入剖析-Spark商業調優實戰

本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何商業交流，可隨時聯絡。

spark運算元調優

1、MapPartitions提升Map類操作效能 spark中，最基本的原則，就是每個task處理一個RDD的partition。 1.1 MapPartitions的優缺點 MapPartitions操作的優點：如果是普通的map，比如一個partition中有1萬

Spark效能調優之原理分析

spark效能調優之前先明白原理，具體如下：使用spark-submit提交一個Spark作業之後，這個作業就會啟動一個對應的Driver程序。根據使用的部署模式（deploy-mode）不同，Driver程序可能在本地啟動，也可能在叢集中某個工作節點上啟動。Driver程序本身會根

Spark 配置調優

spark.master spark://192.168.1.10:7077 spark.eventLog.enabled &nbs

spark資源調優