1. 程式人生 > >Hive On Spark執行計劃總結

Hive On Spark執行計劃總結

1、  Hive on Spark EXPLAIN statement

在Hive中,命令Explain可以用來檢視查詢的執行計劃。對於Hive on Spark,這個命令本身不會改變,還會表現的和以前一樣。它仍然會顯示依賴語法樹和每個stage階段的執行計劃。

然後,如果hive.execution.engine設定為spark,它將代替預設的MapReduce的查詢引擎,而是顯示Spark查詢引擎的執行計劃。

2、  Dependency Graph

依賴圖顯示了Stages之間的依賴關係,對於Hive on Spark來說,將使用Spark stages代替MapReduce的stages。

對於絕大多數查詢,因為很多map和reduce的works能夠在Spark的一個work中完成,所以Spark的查詢引擎只有一個Spark stage。因此,對於同樣的查詢,使用Hive on Spark,這裡可能會有更少的stages數量。對於一些查詢,會有多個Spark stages,比如map join,skew join等等。

需要指出的是,Hive中的stage與Spark中的stage的概念是不同的。一個Hive的stage可以相當於Spark中的多個stages。在Spark中,一個stage通常意味著一組tasks,這些task在一個executor中執行。而在Hive中,一個stage包含一系列操作,這些操作在一個job中處理。

3、  Spark Stage Plan

Spark的stage顯示Spark的work graph,是一個DAG(有向無環圖)。它包括:

l  DAG名稱,Spark工作的DAG名稱

l  Edges邊界,顯示在這個DAG中works直接的依賴關係

l  Vertices頂點,顯示每個work的操作樹

對於每個獨立的操作樹,在Hive on Spark中沒什麼改變。不同在與依賴圖。對於MapReduce來說,沒有mapper時,無法有reducer。但是對於Spark來說,這個不是問題。因此,Hive on Spark能夠優化執行計劃並移除那些不需要的mappers。

Edge(邊界)資訊對於Hive on Spark來說是新的內容。不同的邊界型別表示不同的shuffle需要。比如PARTITION­-LEVEL SORT意味著在shuffling期間,行記錄應該在分割槽級別上排序。

4、  Sample Query Plans

下面將介紹一些Hive on Spark的查詢計劃的例子。這裡必不會涉及太多的優化設定和計劃。

l  Common Join

在Hive on Spark中的查詢計劃為:

相關推薦

Hive On Spark執行計劃總結

1、  Hive on Spark EXPLAIN statement在Hive中,命令Explain可以用來檢視查詢的執行計劃。對於Hive on Spark,這個命令本身不會改變,還會表現的和以前一樣。它仍然會顯示依賴語法樹和每個stage階段的執行計劃。然後,如果hiv

Hive On Spark 安裝成功之後的總結

Hive On Spark官方文件:https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started 首先,之前憑藉自己的錯覺以為使用官網提供好的安裝包之後就可以,後來各種實

SparkSQL與Hive on Spark的比較

.cn local 順序 沒有 針對 ast custom spark manager 簡要介紹了SparkSQL與Hive on Spark的區別與聯系一、關於Spark簡介在Hadoop的整個生態系統中,Spark和MapReduce在同一個層級,即主要解決分布式計算框

hive on spark VS SparkSQL VS hive on tez

dir csdn cluster 並且 http 緩沖 快速 bsp pos http://blog.csdn.net/wtq1993/article/details/52435563 http://blog.csdn.net/yeruby/article/details

hive on spark

技術分享 engine sele park cut bsp 配置 spark lec hive on spark 的配置及設置CDH都已配置好,直接使用就行,但是我在用的時候報錯,如下:    具體操作如下時報的錯: 在hive 裏執行以下命令: set

sparksql\hive on spark\hive on mr

Hive on Mapreduce Hive的原理大家可以參考這篇大資料時代的技術hive:hive介紹,實際的一些操作可以看這篇筆記:新手的Hive指南,至於還有興趣看Hive優化方法可以看看我總結的這篇Hive效能優化上的一些總結 Hive on Mapreduce執行流程

hive on spark 效能引數調優

select * from stg_bankcard_auth_apply where length(idcardno) >= 1 and length(idcardno) <> 32; --該表儲存檔案格式為txt格式,是原始檔直接load進來的,mapreduce執行不管任何s

Hive on Spark調優

之前在Hive on Spark跑TPCx-BB測試時,100g的資料量要跑十幾個小時,一看CPU和記憶體的監控,發現 POWER_TEST階段(依次執行30個查詢)CPU只用了百分之十幾,也就是沒有把整個叢集的效能利用起來,導致跑得很慢。因此,如何調整引數,使整個叢集發揮最大效能顯得尤為

第四天 -- Accumulator累加器 -- Spark SQL -- DataFrame -- Hive on Spark

第四天 – Accumulator累加器 – Spark SQL – DataFrame – Hive on Spark 文章目錄 第四天 -- Accumulator累加器 -- Spark SQL -- DataFrame -- Hive on Spark

SparkSQL和hive on Spark

SparkSQL簡介 SparkSQL的前身是Shark,給熟悉RDBMS但又不理解MapReduce的技術人員提供快速上手的工具,hive應運而生,它是當時唯一執行在Hadoop上的SQL-on-hadoop工具。但是MapReduce計算過程中大量的中間磁碟落地過程消耗了大量的I/O,降低的執行效率,為

Hive on spark 報錯FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.spark

cp /opt/cloudera/parcels/CDH-5.13.3-1.cdh5.13.3.p0.2/lib/spark/lib/spark-assembly.jar /opt/cloudera/parcels/CDH-5.13.3-1.cdh5.13.3.p0.2/lib/hive/lib

Oracle執行計劃總結

相關的概念 ROWNUM ROWNUM是一種偽列,它會根據返回記錄生成一個序列化的數字。 select * from tab_areainfom t where rownum < 8

大資料利用hive on spark程式操作hive

hive on spark 作者:小濤 Hive是資料倉庫,他是處理有結構化的資料,當資料沒有結構化時hive就無法匯入資料,而它也是遠行在mr程式之上

Hive on Spark 偽分散式環境搭建過程記錄

進入hive cli是,會有如下提示: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. s

hive on spark開發demo

public class SparkHiveTest { public static void main(String[] args) { String warehous

hive on spark通過YARN-client提交任務不成功

在Hive on spark中  設定spark.master 為 yarn-client , 提交HiveQL任務到yarn上執行,發現任務無法執行 輸出一下錯誤: 可以看到 Hive on S

基於Spark2.0搭建Hive on Spark環境(Mysql本地和遠端兩種情況)

Hive的出現可以讓那些精通SQL技能、但是不熟悉MapReduce 、程式設計能力較弱與不擅長Java語言的使用者能夠在HDFS大規模資料集上很方便地利用SQL 語言查詢、彙總、分析資料,畢竟精通SQL語言的人要比精通Java語言的多得多。Hive適合處理離線非實時資料。h

第74課:Hive on Spark大揭祕 完整版

內容:     1.Hive On Spark內幕     2.Hive on Spark實戰 一、Hive On Spark內幕     1.Hive on spark 是hive 的一個子

hive on spark 利用maven重新編譯spark

緣由:使用hive on spark 進行hivesql操作的時候報以下錯誤: Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to cre

Hive-On-Spark

1 HiveOnSpark簡介 Hive On Spark (跟hive沒太大的關係,就是使用了hive的標準(HQL, 元資料庫、UDF、序列化、反序列化機制)) Hive原來的計算模型是MR,有點慢(將中間結果寫入到HDFS中) Hive On Spark 使用RDD(DataF