在Yarn上執行spark-shell和spark-sql命令列

阿新 • • 發佈：2018-11-11

spark-shell On Yarn

如果你已經有一個正常執行的Hadoop Yarn環境，那麼只需要下載相應版本的Spark，解壓之後做為Spark客戶端即可。

需要配置Yarn的配置檔案目錄，export HADOOP_CONF_DIR=/etc/hadoop/conf 這個可以配置在spark-env.sh中。

執行命令：

cd $SPARK_HOME/bin
./spark-shell \
--master yarn-client \
--executor-memory 1G \
--num-executors 10

注意，這裡的–master必須使用yarn-client模式，如果指定yarn-cluster，則會報錯：

Error: Cluster deploy mode is not applicable to Spark shells.

因為spark-shell作為一個與使用者互動的命令列，必須將Driver執行在本地，而不是yarn上。

其中的引數與提交Spark應用程式到yarn上用法一樣。

啟動之後，在命令列看上去和standalone模式下的無異：

spark-shell on yarn

在ResourceManager的WEB頁面上，看到了該應用程式（spark-shell是被當做一個長服務的應用程式執行在yarn上）：

spark-shell on yarn

點選ApplicationMaster的UI，進入到了Spark應用程式監控的WEB頁面：

spark-shell on yarn

spark-sql On Yarn

spark-sql命令列執行在yarn上，原理和spark-shell on yarn一樣。只不過需要將Hive使用的相關包都加到Spark環境變數。

1. 將hive-site.xml拷貝到$SPARK_HOME/conf

2.export HIVE_HOME=/usr/local/apache-hive-0.13.1-bin 新增到spark-env.sh

3.將以下jar包新增到Spark環境變數：

datanucleus-api-jdo-3.2.6.jar、datanucleus-core-3.2.10.jar、datanucleus-rdbms-3.2.9.jar、mysql-connector-java-5.1.15-bin.jar

可以在spark-env.sh中直接新增到SPARK_CLASSPATH變數中。

執行命令：

cd $SPARK_HOME/bin
./spark-sql \
--master yarn-client \
--executor-memory 1G \
--num-executors 10

即可在yarn上執行spark-sql命令列。
spark-sql on yarn

在ResourceManager上的顯示以及點選ApplicationMaster進去Spark的WEB UI，與spark-shell無異。

spark-sql on yarn

這樣，只要之前有使用Hadoop Yarn，那麼就不需要搭建standalone的Spark叢集，也能發揮Spark的強大威力了。

原文連結：http://lxw1234.com/archives/2015/08/448.htm

在Yarn上執行spark-shell和spark-sql命令列

spark-shell On Yarn 如果你已經有一個正常執行的Hadoop Yarn環境，那麼只需要下載相應版本的Spark，解壓之後做為Spark客戶端即可。需要配置Yarn的配置檔案目錄，export HADOOP_CONF_DIR=/etc/hadoop/conf &n

SparkSQL（二）spark-shell和spark-sql以及thriftserver&beeline訪問hive表

一、spark-shell 1.把hive的hive-site.xml複製到spark的conf下面 2.開啟spark-shell bin/spark-shell --master local[2] --jars /opt/datas/mysql-connector-

在YARN上執行Spark API

啟動命令格式： $ ./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] <app jar> [app options] 例

spark 提交任務到yarn上執行

1、在idea上先寫好，自己的程式碼並進行測試，這裡貼一個很簡單的統計單詞個數的程式碼 package spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkConte

《Spark官方文件》在YARN上執行Spark

原文連結 Spark在 0.6.0版本後支援在YARN（hadoop NextGen）上執行，並且在後續版本中不斷改進。在YARN上啟動Spark 首先，確認 HADOOP_CONF_DIR或YARN_CONF_DIR指向的包含了Hadoop叢集的配置檔案。這些配置用於操作HDFS和連線Y

《Spark 官方文件》在YARN上執行Spark

在YARN上執行Spark 對 YARN (Hadoop NextGen) 的支援是從Spark-0.6.0開始的，後續的版本也一直持續在改進。在YARN上啟動首先確保 HADOOP_CONF_DIR 或者 YARN_CONF_DIR 變數指向一個包含Hadoop叢集客戶端配置檔案的目錄。這些配置用於

在 YARN 上執行 Spark

翻譯中...Running Spark on YARNSupport for running on YARN (Hadoop NextGen) was added to Spark in version 0.6.0, and improved in subsequent re

在hadoop yarn上執行spark報錯

[email protected]:/usr/local/hadoop/etc/hadoop$ HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/ pyspark --master yarn --deploy-m

spark-core 和spark-sql的區別

轉自： http://www.cnblogs.com/zlslch/p/6685679.html Spark SQL構建在Spark Core之上，專門用來處理結構化資料(不僅僅是SQL)。即Spark SQL是Spark Core封裝而來的！　　Spark

Spark Core 和 Spark SQL 實現分組取Top N(基於scala)

分組取Top N在日常需求中很多見：每個班級分數前三名同學的名字以及分數各省指標數量前三的市的名字等等需求，主要思想就是在某一個分割槽（班級，省）中取出該分割槽Top N的資料測試資料格式：如上圖，欄位含義為，班級，學生姓名，分數下面我們通過一

spark連線hive（spark-shell和eclipse兩種方式）

1、在伺服器（虛擬機器）spark-shell連線hive 1.1 將hive-site.xml拷貝到spark/conf裡 cp /opt/apache-hive-2.3.2-bin/conf/hive-site.xml /opt/spark-

在叢集上執行python編寫的spark應用程式（過程記錄）

啟動hadoop[email protected]:/usr/local/hadoop-2.7.5/sbin#./start-all.sh This script is Deprecated. Instead use start-dfs.shand start-ya

Hadoop（HDFS、YARN、HBase、Hive和Spark等）預設埠表

埠作用 9000 fs.defaultFS，如：hdfs://172.25.40.171:9000 9001 dfs.namenode.rpc-address，DataNode會連線這個

Spark2.2（三十三）：Spark Streaming和Spark Structured Streaming更新broadcast總結

背景：需要在spark2.2.0更新broadcast中的內容，網上也搜尋了不少文章，都在講解spark streaming中如何更新，但沒有spark structured streaming更新broadcast的用法，於是就這幾天進行了反覆測試。經過了一下兩個測試：：Spark Streaming更

spark原理和spark與mapreduce的最大區別

參考文件:https://files.cnblogs.com/files/han-guang-xue/spark1.pdf 參考網址:https://www.cnblogs.com/wangrd/p/6232826.html 對於spark個人理解: 　　spark與mapreduce最

Yarn 上提交的job對應的sql查詢

一.在yarn上檢視型別是mapreduce 的job對應的sql 1.進入hadoop的監控頁面，選擇型別是MAPREDUCE的應用。 2.點選上圖的application_id進入此application的專案頁面資訊，如下圖所示： 3，點選

偽分散式的搭建（YARN上執行MapReduce 程式）

偽分散式的搭建（YARN上執行MapReduce 程式） 1.啟動叢集 1.1在當前目錄下 1.2確保NameNode和DataNode已經啟動 1.3啟動ResourceManager 1.4啟動NodeManager

mapreduce程式在yarn上執行的流程

自己學習mapreduce的一點簡單的心得 1.當我們在準備在yarn上執行一個mapreduce程式時，job.waitForCompletion()就會去Resource Manager發出一個請求，請求執行一個m r程式； 2.hdfs在獲得這個請求之後，會去分配一

Impala 2、Impala Shell 和 Impala SQL

1、Impala 外部 Shell　　Impala外部Shell 就是不進入Impala內部，直接執行的ImpalaShell 例如通過外部Shell檢視Impala幫助可以使用： $ impala-shell -h 這樣就可以查看了；　　再例如顯示一個SQL語句的執行計劃：

騰訊雲Centos 7.0 伺服器上執行Java指令碼和jar檔案

1.執行java指令碼編輯java原始檔 vim HelloWorld.java 建立並開啟HelloWorld.java檔案，編輯內容如下： public class HelloWor

在Yarn上執行spark-shell和spark-sql命令列

spark-shell On Yarn

spark-sql On Yarn

相關推薦