Hive On Spark執行計劃總結

1、 Hive on Spark EXPLAIN statement

在Hive中，命令Explain可以用來檢視查詢的執行計劃。對於Hive on Spark，這個命令本身不會改變，還會表現的和以前一樣。它仍然會顯示依賴語法樹和每個stage階段的執行計劃。

然後，如果hive.execution.engine設定為spark，它將代替預設的MapReduce的查詢引擎，而是顯示Spark查詢引擎的執行計劃。

2、 Dependency Graph

依賴圖顯示了Stages之間的依賴關係，對於Hive on Spark來說，將使用Spark stages代替MapReduce的stages。

對於絕大多數查詢，因為很多map和reduce的works能夠在Spark的一個work中完成，所以Spark的查詢引擎只有一個Spark stage。因此，對於同樣的查詢，使用Hive on Spark，這裡可能會有更少的stages數量。對於一些查詢，會有多個Spark stages，比如map join，skew join等等。

需要指出的是，Hive中的stage與Spark中的stage的概念是不同的。一個Hive的stage可以相當於Spark中的多個stages。在Spark中，一個stage通常意味著一組tasks，這些task在一個executor中執行。而在Hive中，一個stage包含一系列操作，這些操作在一個job中處理。

3、 Spark Stage Plan

Spark的stage顯示Spark的work graph，是一個DAG(有向無環圖)。它包括：

l DAG名稱，Spark工作的DAG名稱

l Edges邊界，顯示在這個DAG中works直接的依賴關係

l Vertices頂點，顯示每個work的操作樹

對於每個獨立的操作樹，在Hive on Spark中沒什麼改變。不同在與依賴圖。對於MapReduce來說，沒有mapper時，無法有reducer。但是對於Spark來說，這個不是問題。因此，Hive on Spark能夠優化執行計劃並移除那些不需要的mappers。

Edge(邊界)資訊對於Hive on Spark來說是新的內容。不同的邊界型別表示不同的shuffle需要。比如PARTITION-LEVEL SORT意味著在shuffling期間，行記錄應該在分割槽級別上排序。

4、 Sample Query Plans

下面將介紹一些Hive on Spark的查詢計劃的例子。這裡必不會涉及太多的優化設定和計劃。

l Common Join

在Hive on Spark中的查詢計劃為：

Hive On Spark執行計劃總結

Hive On Spark執行計劃總結

Hive On Spark 安裝成功之後的總結

SparkSQL與Hive on Spark的比較

hive on spark VS SparkSQL VS hive on tez

hive on spark

sparksql\hive on spark\hive on mr

hive on spark 效能引數調優

Hive on Spark調優

第四天 -- Accumulator累加器 -- Spark SQL -- DataFrame -- Hive on Spark

SparkSQL和hive on Spark

Hive on spark 報錯FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark

Oracle執行計劃總結

大資料利用hive on spark程式操作hive

Hive on Spark 偽分散式環境搭建過程記錄

hive on spark開發demo

hive on spark通過YARN-client提交任務不成功

基於Spark2.0搭建Hive on Spark環境(Mysql本地和遠端兩種情況)

第74課：Hive on Spark大揭祕完整版

hive on spark 利用maven重新編譯spark

Hive-On-Spark

Hive On Spark執行計劃總結

相關推薦