spark部署之yarn模式

hadoop-3.0.0叢集搭建
配置相應環境
- java環境
- scala（可配可不配）
- hadoop環境
從官網下載spark
- 解壓
- 配置 /conf/spark-env.sh
```
export JAVA_HOME=/usr/java/jdk1.8.0_45
export HADOOP_CONF_DIR=/usr/java/hadoop-3.0.0/etc/hadoop
export SPARK_MASTER_HOST=master
export SPARK_WORKER_MEMORY=1g
```
- 啟動
  - 啟動hdfs
```
start-dfs.sh
```
  - 啟動yarn
```
start-yarn.sh
 
```
  - 啟動spark-shell
```
./spark-shell --master yarn --deploy-mode client
```
  - 報錯
```
2019-04-22 11:15:44,640 ERROR spark.SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master.
	at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.waitForApplication(YarnClientSchedulerBackend.scala:85)
	at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:62)
	at org.apache.spark.scheduler.TaskSchedulerImpl.start(TaskSchedulerImpl.scala:173)
	at org.apache.spark.SparkContext.<init>(SparkContext.scala:509)
	at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2516)
	at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:918)
	at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:910)
	at scala.Option.getOrElse(Option.scala:121)
	at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:910)
	at org.apache.spark.repl.Main$.createSparkSession(Main.scala:101)
	at $line3.$read$$iw$$iw.<init>(<console>:15)
	at $line3.$read$$iw.<init>(<console>:42)
	at $line3.$read.<init>(<console>:44)
	at $line3.$read$.<init>(<console>:48)
	at $line3.$read$.<clinit>(<console>)
	at $line3.$eval$.$print$lzycompute(<console>:7)
	at $line3.$eval$.$print(<console>:6)
	at $line3.$eval.$print(<console>)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:497)
	at scala.tools.nsc.interpreter.IMain$ReadEvalPrint.call(IMain.scala:786)
	at scala.tools.nsc.interpreter.IMain$Request.loadAndRun(IMain.scala:1047)
	at scala.tools.nsc.interpreter.IMain$WrappedRequest$$anonfun$loadAndRunReq$1.apply(IMain.scala:638)
	at scala.tools.nsc.interpreter.IMain$WrappedRequest$$anonfun$loadAndRunReq$1.apply(IMain.scala:637)
	at scala.reflect.internal.util.ScalaClassLoader$class.asContext(ScalaClassLoader.scala:31)
	at scala.reflect.internal.util.AbstractFileClassLoader.asContext(AbstractFileClassLoader.scala:19)
	at scala.tools.nsc.interpreter.IMain$WrappedRequest.loadAndRunReq(IMain.scala:637)
	at scala.tools.nsc.interpreter.IMain.interpret(IMain.scala:569)
	at scala.tools.nsc.interpreter.IMain.interpret(IMain.scala:565)
	at scala.tools.nsc.interpreter.ILoop.interpretStartingWith(ILoop.scala:807)
	at scala.tools.nsc.interpreter.ILoop.command(ILoop.scala:681)
	at scala.tools.nsc.interpreter.ILoop.processLine(ILoop.scala:395)
	at org.apache.spark.repl.SparkILoop$$anonfun$initializeSpark$1.apply$mcV$sp(SparkILoop.scala:38)
	at org.apache.spark.repl.SparkILoop$$anonfun$initializeSpark$1.apply(SparkILoop.scala:37)
	at org.apache.spark.repl.SparkILoop$$anonfun$initializeSpark$1.apply(SparkILoop.scala:37)
	at scala.tools.nsc.interpreter.IMain.beQuietDuring(IMain.scala:214)
	at org.apache.spark.repl.SparkILoop.initializeSpark(SparkILoop.scala:37)
	at org.apache.spark.repl.SparkILoop.loadFiles(SparkILoop.scala:98)
	at scala.tools.nsc.interpreter.ILoop$$anonfun$process$1.apply$mcZ$sp(ILoop.scala:920)
	at scala.tools.nsc.interpreter.ILoop$$anonfun$process$1.apply(ILoop.scala:909)
	at scala.tools.nsc.interpreter.ILoop$$anonfun$process$1.apply(ILoop.scala:909)
	at scala.reflect.internal.util.ScalaClassLoader$.savingContextLoader(ScalaClassLoader.scala:97)
	at scala.tools.nsc.interpreter.ILoop.process(ILoop.scala:909)
	at org.apache.spark.repl.Main$.doMain(Main.scala:74)
	at org.apache.spark.repl.Main$.main(Main.scala:54)
	at org.apache.spark.repl.Main.main(Main.scala)
	at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:497)
	at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:775)
	at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:180)
	at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:205)
	at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:119)
	at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
2019-04-22 11:15:44,796 WARN cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: Attempted to request executors before the AM has registered!
2019-04-22 11:15:45,030 WARN metrics.MetricsSystem: Stopping a MetricsSystem that is not running
org.apache.spark.SparkException: Yarn application has already ended! It might have been killed or unable to launch application master.
  at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.waitForApplication(YarnClientSchedulerBackend.scala:85)
  at org.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:62)
  at org.apache.spark.scheduler.TaskSchedulerImpl.start(TaskSchedulerImpl.scala:173)
  at org.apache.spark.SparkContext.<init>(SparkContext.scala:509)
  at org.apache.spark.SparkContext$.getOrCreate(SparkContext.scala:2516)
  at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:918)
  at org.apache.spark.sql.SparkSession$Builder$$anonfun$6.apply(SparkSession.scala:910)
  at scala.Option.getOrElse(Option.scala:121)
  at org.apache.spark.sql.SparkSession$Builder.getOrCreate(SparkSession.scala:910)
  at org.apache.spark.repl.Main$.createSparkSession(Main.scala:101)
  ... 47 elided
 
```
  - 解決
    - 停掉yarn
```
stop-yarn.sh
```
    - 新增配置hadoop下的 /hadoop-3.0.0/etc/hadoop/yarn-site.xml
```
<property>
  <name>yarn.nodemanager.vmem-check-enabled</name>
  <value>false</value>
  <description>Whether virtual memory limits will be enforced for containers</description>
</property>
<property>
   <name>yarn.nodemanager.vmem-pmem-ratio</name>
   <value>4</value>
   <description>Ratio between virtual memory to physical memory when setting memory limits for containers</description>
</property>
 
```
    - 啟動yarn
    - 啟動spark-shell
    - 訪問web ui
```
http://master:4040
```
  相關推薦
  
  spark部署之yarn模式
  
  spark部署之yarn模式 hadoop-3.0.0叢集搭建配置相應環境 java環境 scala（可配可不配） hado
  
  【原創】大數據基礎之Spark（9）spark部署方式yarn/mesos
  
  cli 原創 container 大數據 per containe ber exe 調整 1 下載 https://spark.apache.org/downloads.html $ wget http://mirrors.shu.edu.cn/apache/spar
  
  LVS 負載均衡叢集部署之 DR 模式
  
  一、DR 模式工作原理如圖，LVS-DR的工作原理，在圖中已經說明，下面，我們來列舉 LVS-DR 模式特點： 1、RIP 可以使用私有地址，也可以使用公網地址，如果使用公網地址，則可以直接
  
  大資料之Spark（八）--- Spark閉包處理，Spark的應用的部署模式，Spark叢集的模式，啟動Spark On Yarn模式，Spark的高可用配置
  
  一、Spark閉包處理 ------------------------------------------------------------ RDD,resilient distributed dataset,彈性(容錯)分散式資料集。分割槽列表,fun
  
  spark基礎之基於yarn兩種提交模式分析
  
  一介紹基於YARN的提交模式，總共有2種：一種是基於YARN的yarn-cluster模式；一種是基於YARN的yarn-client模式。需要將提交應用程式的spark-submit的指令碼
  
  spark-yarn 模式 jar包優化
  
  spark 大數據 hadoop yarn在yarn模式下，會上傳jar包到yarn來執行spark程序，如果每次都上傳，很耗時間，而且如果是阿裏雲的機器，上傳很慢，180m的jar要上傳十幾分鐘，所以要提前上傳到hdfs中去。spark支持如下幾個參數spark.yarn.jars：只能指定具體jar包，在
  
  搭建部署Hadoop 之Yarn
  
  .lib get allow component 分享 marshal red err 申請 Yarn 集群資源管理系統Yarn 角色及概念?Yarn 是 Hadoop 的一個通用的資源管理系統? Yarn 角色 – Resourcemanager – Node
  
  【Spark】篇---Spark中yarn模式兩種提交任務方式
  
  方式 div -s and clas client 命令 yarn 模式一、前述 Spark可以和Yarn整合，將Application提交到Yarn上運行，和StandAlone提交模式一樣，Yarn也有兩種提交任務的方式。二、具體 1、yarn
  
  大數據之---Yarn偽分布式部署和MapReduce案例
  
  大數據 Yarn 1、軟件環境 RHEL6 角色 jdk-8u45hadoop-2.8.1.tar.gz ? sshxx.xx.xx.xx ip地址 NN hadoop01xx.xx.xx.xx ip地址 DN hadoop02xx.xx.xx.xx ip地址 DN hadoop03xx.xx.xx
  
  spark筆記之模式匹配和樣例類
  
  數組 object c spa 協調一個數據好的處理 zookeepe 階有一個十分強大的模式匹配機制，可以應用到很多場合：如開關語句，類型檢查等並且階還提供了樣例類，對模式匹配進行了優化，可以快速進行匹配。1.1。匹配字符串 package cn.itcast.c
  
  LVS負載均衡之NAT模式部署
  
  權重超時時間 font lvs負載均衡同時密碼 work rtu ice 1、LVS的NAT模式介紹參考自官網：http://www.linuxvirtualserver.org/zh/lvs3.html 由於IPv4中IP地址空間的日益緊張和安全方面的原因
  
  spark on yarn模式下內存資源管理（筆記2）
  
  warn 計算 nta 堆內存註意 layout led -o exc 1.spark 2.2內存占用計算公式 https://blog.csdn.net/lingbo229/article/details/80914283 2.spark on yarn內存分配*
  
  spark跑YARN模式或Client模式提交任務不成功（application state: ACCEPTED）
  
  應該是yarn的記憶體資源不夠 cd $HADOOP_HOME/bin 然後檢視yarn程序 yarn application -list 然後殺死任務 yarn application -kill application_1437456051228_1725
  
  spark應用yarn模式提交多個應用，一個Running,其它處於accepted狀態
  
  這篇文章解決我們的問題：https://blog.csdn.net/dandykang/article/details/48160927 以前只是開發，現在到了一家大資料剛起步公司，需要提交spark應用到yarn，每次只能執行一個，處於Running狀態，其它處於Accepted狀
  
  Spark2.2.0叢集搭建部署之【SPARK叢集篇】
  
  軟體準備資訊，詳見Spark2.2.0叢集搭建部署之【軟體準備篇】基礎配置資訊，詳見Spark2.2.0叢集搭建部署之【基礎配置篇】 SSH無密訪問，詳見park2.2.0叢集搭建部署之【無密訪問篇】 HADOOP叢集，詳見Spark2.2.0叢集搭建部署之【HADOOP叢集篇】
  
  Flink 叢集執行原理兼部署及Yarn執行模式深入剖析-Flink牛刀小試
  
  版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何問題，可隨時聯絡。 1 Flink的
  
  spark的三種模式的詳細執行過程（基於standalone與基於yarn）
  
  一、Standalone模式 1、使用SparkSubmit提交任務的時候(包括Eclipse或者其它開發工具使用new SparkConf()來執行任務的時候)，Driver執行在Client；使用SparkShell提交的任務的時候，Driver是執行在Master上 2、使用SparkSu
  
  Spark中yarn模式兩種提交任務方式
  
  轉自：https://www.cnblogs.com/LHWorldBlog/p/8414342.html 一、前述 Spark可以和Yarn整合，將Application提交到Yarn上執行，和StandAlone提交模式一樣，Yarn也有兩種提交任務的方式。二、具體
  
  大資料基礎課之Yarn偽分散式部署0926
  
  1 Yarn偽分散式部署 You can run a MapReduce job on YARN in a pseudo-distributed mode by setting a few parameters and running ResourceMana
  
  【Spark篇】---Spark中yarn模式兩種提交任務方式
  
  一、前述Spark可以和Yarn整合，將Application提交到Yarn上執行，和StandAlone提交模式一樣，Yarn也有兩種提交任務的方式。二、具體 1、yarn-client提交任務方式配置在client節點配置中spark

spark部署之yarn模式

spark部署之yarn模式

相關推薦