Hive On Spark概述

阿新 • • 發佈：2019-01-18

Hive現有支援的執行引擎有mr和tez，預設的執行引擎是mr，Hive On Spark的目的是新增一個spark的執行引擎，讓hive能跑在spark之上；

在執行hive ql指令碼之前指定執行引擎、spark.home、spark.master

set hive.execution.engine=spark;
set spark.home=/home/spark/app/spark-1.3.0-bin-spark-without-hive;
set spark.master=yarn;

Hive On Spark與Spark SQL/Shark的區別：

Spark SQL/Shark:

1、將sql語義翻譯成Spark RDD在Spark上執行；

2、Spark SQL是基於hive snapshot版本，雖然能夠相容hive，但是使用的版本早於當前hive的release版本，最新的一些特性則無法使用；

3、Spark SQL使用Spark的transformation和action替換Hive sql的構建; 將會丟失一些hive自身構建實現的特性;

Hive on Spark：

1、將hql語義翻譯成MapReduce在Spark上執行；

2、Hive On Spark則是與hive共同演化；

3、Hive On Spark使用的是Hive的構建，將包含Hive所有的特性，Spark僅僅是一個通用的執行引擎而已；

為Hive新增一個spark執行引擎涉及到如下方面

：

1、查詢計劃

將Hive的邏輯執行計劃進一步翻譯成Spark能夠執行的Spark計劃；

2、查詢執行

得到的Spark計劃真正在Spark叢集中執行；

3、監控、計數器、統計等

查詢計劃：

當hive接收到一個sql語句時，使用Hive的語法解析器解析成一個操作計劃；

對於On Spark引擎，引入了SparkComplier，類似於MapReduceCompiler和TezCompiler；

SparkComplier：

　　將從Hive中得到的邏輯執行計劃轉成在Spark上能執行的計劃；

　　在產生Spark計劃的時候做一些物理執行計劃的優化；

SparkTask：在Spark叢集中執行的一個job

SparkWork：SparkTask的計劃，可以通過explain檢視

SparkComplier: 將Hive的執行計劃轉化成一個SparkWork

查詢執行：

SparkTask.execute()在SparkWork之外產出rdd以及相應的方法，通過Spark Client提交給Spark叢集執行；一旦SparkTask提交給了Spark叢集，Spark Client將監控job的執行情況；

通過SparkJobMonitor來處理列印任務的執行狀態和最終的執行結果；Spark Job的提交是通過SparkContext物件完成的；當SparkTask被hive執行時，就會為當前使用者session建立一個SparkContext；

Hive表相關的RDD將會被建立；MapFunction、ReduceFunction將會被SparkWork建立並且作用在RDD上；當在RDD上執行foreach方法時該RDD上的job就會被觸發執行。

監控、計數器、統計等：

監控：

Spark在每個SparkContext執行時提供了WebUI，當時該UI中只能展現出執行時的Application資訊；

為了在Application執行完後也能重新渲染UI資訊，需要在啟動Application之前設定spark.eventLog.enabled為true；

Standalone模式執行時可以通過WebUI展示，YARN/Mesos模式執行時，可以通過Spark History Server來展現；

計數器/統計：

在Spark中提供了accumulator實現計數器，使用Metrics實現統計；

Hive On Spark概述

Hive On Spark概述

SparkSQL與Hive on Spark的比較

hive on spark VS SparkSQL VS hive on tez

hive on spark

sparksql\hive on spark\hive on mr

hive on spark 效能引數調優

Hive on Spark調優

第四天 -- Accumulator累加器 -- Spark SQL -- DataFrame -- Hive on Spark

SparkSQL和hive on Spark

Hive on spark 報錯FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark

大資料利用hive on spark程式操作hive

Hive on Spark 偽分散式環境搭建過程記錄

hive on spark開發demo

hive on spark通過YARN-client提交任務不成功

基於Spark2.0搭建Hive on Spark環境(Mysql本地和遠端兩種情況)

第74課：Hive on Spark大揭祕完整版

hive on spark 利用maven重新編譯spark

Hive-On-Spark

面試題：Hive on Spark與SparkSql的區別

Hive On Spark搭建(cdh)

Hive On Spark概述

相關推薦