spark執行方式及其常用引數

阿新 • • 發佈：2019-01-08

2016年09月19日 18:27:47 jiewuyou 閱讀數：1224 標籤： spark 更多

個人分類：雲端計算

所屬專欄： spark私房菜

本文將介紹spark的幾種執行方式，及常用的引數

yarn cluster模式

例行任務一般會採用這種方式執行

指定固定的executor數

作業常用的引數都在其中指定了，後面的執行指令碼會省略

spark-submit \
    --master yarn-cluster \  
    --deploy-mode cluster \                  #叢集執行模式
    --name wordcount_${date} \               #作業名
    --queue production.group.yanghao \       #指定佇列
    --conf spark.default.parallelism=1000 \  #並行度，shuffle後的預設partition數 
    --conf spark.network.timeout=1800s \
    --conf spark.yarn.executor.memoryOverhead=1024 \   #堆外記憶體
    --conf spark.scheduler.executorTaskBlacklistTime=30000 \
    --conf spark.core.connection.ack.wait.timeout=300s \
    --num-executors 200 \                   #executor數目 
    --executor-memory 4G \                  #executor中堆的記憶體
    --executor-cores 2 \                    #executor執行core的數目，設定大於1   
    --driver-memory 2G \                    #driver記憶體，不用過大   
    --class ${main_class} \                 #主類
    ${jar_path} \                           #jar包位置
    param_list \                            #mainClass接收的引數列表

動態調整executor數目

spark-submit \
    --master yarn-cluster \
    --deploy-mode cluster \
    --name wordcount_${date} \
    --queue production.group.yanghao \
    --conf spark.dynamicAllocation.enabled=true \     #開啟動態分配
    --conf spark.shuffle.service.enabled=true \       #shuffle service，可以保證executor被刪除時，shuffle file被保留
    --conf spark.dynamicAllocation.minExecutors=200 \ #最小的executor數目
    --conf spark.dynamicAllocation.maxExecutors=500 \ #最大的executor數目
    --class ${main_class} \
    ${jar_path} \
    param_list

yarn client模式

邊寫指令碼，邊在叢集上執行。這樣除錯會很方便

spark-shell \
    --master yarn-client \    
    --queue production.group.yanghao \      #指定佇列
    --num-executors 200 \                   #executor數目 
    --executor-memory 4G \                  #executor中堆的記憶體
    --executor-cores 2 \                    #executor執行core的數目，設定大於1   
    --driver-memory 2G \                    #driver記憶體，不用過大   
    --jars ${jar_path}                      #jar包位置

yarn cluster模式 vs yarn client模式

yarn cluster模式：spark driver和application master在同一個節點上
yarn client模式：spark driver和client在同一個節點上，支援shell
這裡寫圖片描述

參考

http://stackoverflow.com/questions/21138751/spark-java-lang-outofmemoryerror-java-heap-space

spark執行方式及其常用引數

2016年09月19日 18:27:47 jiewuyou 閱讀數：1224 標籤： spark 更多個人分類：雲端計算所屬專欄： spark私房菜本文將介紹spark的幾種執行方式，及常用的

ping命令使用及其常用引數

PING (Packet Internet Groper)，因特網包探索器，用於測試網路連線量檢查網路是否連通，可以很好地幫助我們分析和判定網路故障。Ping傳送一個ICMP(Internet Control Messages Protocol）即因特網信報控制協議；回聲請求訊息給目的地並報告是否收到所希望的

spark部分：spark的四種執行模式，Spark 比 MapReduce 快的原因，spark執行程式流程，spark運算元種類，spark持久化運算元，cache 和 persist，調節引數的方式

Spark 有 4 中執行模式： 1. local 模式，適用於測試 2. standalone，並非是單節點，而是使用 spark 自帶的資源排程框架 3. yarn，最流行的方式，使用 yarn 叢集排程資源 4. mesos，國外使用的多 Spark 比 M

shell中spark-sql語句除錯、執行方式

1.命令方式執行sparksql查詢 SQL="use mydatatable;;select count(1) from tab_videousr_onlne where p_regiion=101 and p_date='2017-04-05' and p_hour=21;" /home

Java多執行緒2.9.實現執行緒的常用方式-匿名內部類

實現執行緒的常用方式-匿名內部類 1、匿名內部類的格式匿名內部類的格式。本質：是該類或者介面的子類物件。 new 類名或者介面名() { 重寫方法; }; 2、實現執行緒的常用

C# 多執行緒資源克隆解決方式及其應用

背景：多執行緒中的共享資源處理常用的方法是加鎖，但是加鎖是的任務處理由並行處理程式設計了序列處理大大降低了多執行緒的效率，這裡介紹另一種處理多執行緒共享資源的處理方式克隆，介紹在C#中克隆解決多執行緒問題的示例和其他開源框架中使用這種思想實現的一些功能，歡迎大家留言交流。

三種新增執行緒的方式及其區別

我們常見的新增執行緒的方法通常是兩種： ①繼承Thread類，實現run方法，呼叫start()方法開啟執行緒； ②實現Runnable介面，實現run方法，呼叫start()方法開啟執行緒；其實還有第三種常用的新增執行緒的方式：是通過Callable和F

多執行緒實現的兩種方式及其區別

繼承Thread public class Demo2_Thread { public static void main(String[] args) { MyThrea

實現執行緒的兩種方式及其結合內部類的多種變態

初學Java三十多天的小白，總結僅供參考！有錯誤希望大家踴躍指出，不勝感激！實現執行緒的方式一：繼承Thread類【1】正常形式下（最容易理解的形式）public class TestDemo { public static void main(String[] args)

27課：SPARK 執行在yarn資源排程框架 client 、cluster方式！！

分散式叢集 [email protected]:/usr/local/hadoop-2.6.0/etc/hadoop# vi /etc/hosts 127.0.0.1 localhost 192.168.189.1 master 192.168.189

Java建立執行緒的三種方式及其對比

Java中建立執行緒主要有三種方式：一、繼承Thread類建立執行緒類（1）定義Thread類的子類，並重寫該類的run方法，該run方法的方法體就代表了執行緒要完成的任務。因此把run()方法稱為執行體。（2）建立Thread子類的例項，即建立了執行緒物

Java 建立執行緒的三種方式及其對比

Java中建立執行緒主要有三種方式：一、繼承Thread類建立執行緒類（1）定義Thread類的子類，並重寫該類的run方法，該run方法的方法體就代表了執行緒要完成的任務。因此把run()方法稱為執行體。（2）建立Thread子類的例項，即建立了執行緒物件。（3）呼

JS中的八種常用的跨域方式及其具體示例的總結（最新、最完整、最詳細）

JS中的八種常用的跨域方式及其具體示例的總結　　這裡說的js跨域是指通過js在不同的域之間進行資料傳輸或通訊，比如用ajax向一個不同的域請求資料，或者通過js獲取頁面中不同域的框架中(iframe)的資料。　　跨域問題是由於javascrip

Spark啟動時的master引數以及Spark的部署方式

我們在初始化SparkConf時，或者提交Spark任務時，都會有master引數需要設定，如下：conf = SparkConf().setAppName(appName).setMaster(master) sc = SparkContext(conf=conf) /bin/spark-submit \

Glide 系列-1：預熱、Glide 的常用配置方式及其原理

在接下來的幾篇文章中，我們會對 Android 中常用的圖片載入框架 Glide 進行分析。在本篇文章中，我們先通過介紹 Glide 的幾種常用的配置方式來了解 Glide 的部分原始碼。後續的文中，我們會對 Glide 的原始碼進行更詳盡的分析。對於 Glide，相信多數 Android 開發者並不陌生

spark常用引數

val conf = new SparkConf().setAppName("WordCount_groupBy").setMaster("local") // .set("spark.default.parallelism", "100") // 1. 調節並行度 .set

執行緒同步常用方式與區別

在介紹執行緒同步/互斥之前，我們先要理解同步與互斥的概念，引用書上的解釋來說明這2個概念： 1、執行緒（程序）同步的主要任務在引入多執行緒後，由於執行緒執行的非同步性，會給系統造成混亂，特別是在急用臨界資源時，如多個執行緒急用同一臺印表機，會使列印結果交織

Perl執行shell命令的幾種方式及其區別

There are many ways to execute external commands from Perl. The most commons are: system functionexe

Spark DataFrame寫入HBASE常用方式

Spark是目前最流行的分散式計算框架，而HBase則是在HDFS之上的列式分散式儲存引擎，基於Spark做離線或者實時計算，資料結果儲存在HBase中是目前很流行的做法。例如使用者畫像、單品畫像、推薦系統等都可以用HBase作為儲存媒介，供客戶端使用。因

實現多執行緒有兩種方式及其區別

實現多執行緒有兩種方式：(自JDK1.5之後有三種，最後一種並不常用) 　　1.繼承Thread類　　2.實現Runnable介面（Callable介面）一個類如果實現了Runnable介面或者繼承了Thread類，那麼它就是一個多執行緒類，如果是要實現多執行緒，還需要重寫run()方法，所以ru

spark執行方式及其常用引數

yarn cluster模式

yarn client模式

yarn cluster模式 vs yarn client模式

參考

相關推薦