Mark ：Hive使用Spark on Yarn作為執行引擎

阿新 • • 發佈：2019-02-08

原文：http://lxw1234.com/archives/2016/05/673.htm

Hive從1.1之後，支援使用Spark作為執行引擎，配置使用Spark On Yarn作為Hive的執行引擎，首先需要注意以下兩個問題：

Hive的版本和Spark的版本要匹配；

具體來說，你使用的Hive版本編譯時候用的哪個版本的Spark，那麼就需要使用相同版本的Spark，可以在Hive的pom.xml中檢視spark.version來確定；

Hive root pom.xml’s <spark.version> defines what version of Spark it was built/tested with.

Spark使用的jar包，必須是沒有整合Hive的；

也就是說，編譯時候沒有指定-Phive.

一般官方提供的編譯好的Spark下載，都是集成了Hive的，因此這個需要另外編譯。

Note that you must have a version of Spark which does not include the Hive jars. Meaning one which was not built with the Hive profile.

如果不注意版本問題，則會遇到各種錯誤，比如：

Causedby: java.lang.NoClassDefFoundError: org/apache/hive/spark

/client/Job
Causedby: java.lang.ClassNotFoundException: org.apache.hive.spark.client.Job

我這裡使用的環境資訊如下：

hadoop-2.3.0-cdh5.0.0

apache-hive-2.0.0-bin

spark-1.5.0-bin-hadoop2.3

其中，Spark使用了另外編譯的spark-assembly-1.5.0-hadoop2.3.0.jar。編譯很簡單，下載spark-1.5.0的原始碼，使用命令：

mvn -Pyarn -Phadoop-2.3 -Dhadoop.version=2.3.0-cdh5.0.0 -DskipTests -Dscala-2.10 clean package

首先在hive-site.xml中新增spark.home：

<name>spark.home</name>

<value>/usr/local/spark/spark-1.5.0-bin-hadoop2.3</value>

</property>

同時也配置了環境變數

export SPARK_HOME=/usr/local/spark/spark-1.5.0-bin-hadoop2.3

這兩塊應該只需要配置一處即可。

進入hive-cli命令列，使用set的方式設定以下引數：

set spark.master=yarn-cluster;//預設即為yarn-cluster模式，該引數可以不配置
set hive.execution.engine=spark;
set spark.eventLog.enabled=true;
set spark.eventLog.dir=hdfs://cdh5/tmp/sparkeventlog;
set spark.executor.memory=1g;
set spark.executor.instances=50;//executor數量，預設貌似只有2個
set spark.driver.memory=1g;
set spark.serializer=org.apache.spark.serializer.KryoSerializer;

當然，這些引數也可以配置在hive-site.xml中。

接下來就可以執行HQL查詢試試了：

hive

可以看到，已經使用Spark作為執行引擎了。

hive

在Yarn的WEB頁面上也看到了對應的Application。

在進入hive-cli命令列，第一次執行查詢之後，Hive向Yarn申請Container資源，即引數spark.executor.instances指定的數量，另外加一個Driver使用的Container。該Application便會一直執行，直到退出hive-cli，該Application便會成功結束，期間佔用的叢集資源不會自動釋放和回收。如果在hive-cli中修改和executor相關的引數，再次執行查詢時候，Hive會結束上一次在Yarn上執行的Application，重新申請資源提交執行。

Mark ：Hive使用Spark on Yarn作為執行引擎

Mark ：Hive使用Spark on Yarn作為執行引擎

Spark面試：Spark on yarn 執行流程

關於 Java虛擬機：內存處理與執行引擎

讀書筆記 ---- 《深入理解Java虛擬機器》---- 第7篇：虛擬機器位元組碼執行引擎

深入理解JVM虛擬機器(七)：虛擬機器位元組碼執行引擎

spark on yarn作業執行流程

Spark on Yarn任務執行的日誌收集

Hadoop On Yarn Mapreduce執行原理與常用資料壓縮格式

JVM十一：虛擬機器位元組碼執行引擎（2）

JVM十一：虛擬機器位元組碼執行引擎（1）

【深入Java虛擬機器】之七：深入JVM位元組碼執行引擎

深入理解Java虛擬機器 | 第六篇：虛擬機器位元組碼執行引擎

簡述JVM基礎（六）：虛擬機器位元組碼執行引擎

深入理解jvm（四）：虛擬機器位元組碼執行引擎

spark on yarn作業執行的jar包快取優化

《深入理解 Java 虛擬機器》讀書筆記：虛擬機器位元組碼執行引擎

spark on yarn圖形化任務監控利器：History-server幫你理解spark的任務執行過程

Spark -6：執行Spark on YARN

執行引擎(三)：程序編譯與代碼優化

Flink on yarn的問題：Invalid AMRMToken

Mark ：Hive使用Spark on Yarn作為執行引擎

相關推薦