Hive基礎（十五）：Hive 執行過程例項分析

阿新 • • 發佈：2020-11-30

一、Hive 執行過程概述

1、概述

（1） Hive 將 HQL 轉換成一組操作符（Operator），比如 GroupByOperator, JoinOperator 等

（2）操作符 Operator 是 Hive 的最小處理單元

（3）每個操作符代表一個 HDFS 操作或者 MapReduce 作業

（4）Hive 通過 ExecMapper 和 ExecReducer 執行 MapReduce 程式，執行模式有本地模式和分布式兩種模式

2、Hive 操作符列表

3、Hive 編譯器的工作職責

（1）Parser：將 HQL 語句轉換成抽象語法樹（AST：Abstract Syntax Tree）

（2）Semantic Analyzer：將抽象語法樹轉換成查詢塊

（3）Logic Plan Generator：將查詢塊轉換成邏輯查詢計劃

（4）Logic Optimizer：重寫邏輯查詢計劃，優化邏輯執行計劃

（5）Physical Plan Gernerator：將邏輯計劃轉化成物理計劃（MapReduce Jobs）

（6）Physical Optimizer：選擇最佳的 Join 策略，優化物理執行計劃

4、優化器型別

上表中帶①符號的，優化目的都是儘量將任務合併到一個 Job 中，以減少 Job 數量，帶②的優化目的是儘量減少 shuffle 資料量

二、join

1、對於 join 操作

SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON pv.userid = u.userid;

2、實現過程

Map：

　　1、以 JOIN ON 條件中的列作為 Key，如果有多個列，則 Key 是這些列的組合

　　2、以 JOIN 之後所關心的列作為 Value，當有多個列時，Value 是這些列的組合。在 Value 中還會包含表的 Tag 資訊，用於標明此 Value 對應於哪個表

　　3、按照 Key 進行排序

Shuffle：

　　1、根據 Key 的值進行 Hash，並將 Key/Value 對按照 Hash 值推至不同對 Reduce 中

Reduce：

　　1、 Reducer 根據 Key 值進行 Join 操作，並且通過 Tag 來識別不同的表中的資料

3、具體實現過程

三、Group By

1、對於 group by操作

SELECT pageid, age, count(1) FROM pv_users GROUP BY pageid, age;

2、實現過程

四、Distinct

1、對於 distinct的操作

按照 age 分組，然後統計每個分組裡面的不重複的 pageid 有多少個

SELECT age, count(distinct pageid) FROM pv_users GROUP BY age;

2、實現過程

3、詳細過程解釋

該 SQL 語句會按照 age 和 pageid 預先分組，進行 distinct 操作。然後會再按照 age 進行分組，再進行一次 distinct 操作

Hive基礎（十五）：Hive 執行過程例項分析

一、Hive 執行過程概述 1、概述（1） Hive 將 HQL 轉換成一組操作符（Operator），比如 GroupByOperator, JoinOperator 等

Hive基礎（十六）：Hive的元資料表結構詳解

https://blog.csdn.net/yu0_zhang0/article/details/80697913 1 概述我們知道Apache Hive 是構建在Apache Hadoop之上的資料倉庫。有助於對大型的資料集進行讀、寫和管理。這也是官網介紹的第一句話，雖然簡短但是卻

Hive基礎（十八）：hive動態分割槽

往hive分割槽表中插入資料時，如果需要建立的分割槽很多，比如以表中某個欄位進行分割槽儲存，則需要複製貼上修改很多sql去執行，效率低。因為hive是批處理系統，所以hive提供了一個動態分割槽功能，其可以基於查詢

Hbase基礎（十五）：與Hive的整合

1.1HBase與Hive的對比 1．Hive (1) 資料倉庫 Hive的本質其實就相當於將HDFS中已經儲存的檔案在Mysql中做了一個雙射關係，以方便使用HQL去管理查詢。

Hive基礎（十九）：面試題:如何用sqoop將hive中分割槽表的分割槽欄位匯入到MySQL中

問題分析： hive中分割槽表其底層就是HDFS中的多個目錄下的單個檔案，hive匯出資料本質是將HDFS中的檔案匯出

Flink基礎（十五）：Table API 和 Flink SQL（四）視窗（Windows）

　　時間語義，要配合視窗操作才能發揮作用。最主要的用途，當然就是開視窗、根據時間段做計算了。下面我們就來看看 Table API 和 SQL 中，怎麼利用時間欄位做視窗操作。

Java SE基礎鞏固（十五）：lambda表示式

1 概述 Java8據說是Java誕生以來最大的一次演進，說實話，對我個人來說沒有什麼特別大的感受，因為我學Java也就最近一兩年的事，Java8在2014年3月18日釋出，新增的特性確實非常驚豔，在語言特性層面上新增了lambda，

Hadoop基礎（四十三）：Hive 安裝（二）

1 MySql 安裝 1.1安裝包準備 1．檢視 mysql 是否安裝，如果安裝了，解除安裝 mysql （1）檢視

Flink基礎（十六）：Table API 和 Flink SQL（五）函式（Functions）

1 系統內建函式　　Flink Table API 和 SQL 為使用者提供了一組用於資料轉換的內建函式。SQL 中支援的很多函式，Table API 和 SQL 都已經做了實現，其它還在快速開發擴充套件中。

C#資料結構與算法系列（十五）：排序演演算法（SortAlgorithm）

1.介紹排序是將一組資料，以指定的順序進行排序的過程 2.分類內部排序法：指將需要處理的所有資料都載入到內部儲存器中進行排序

Scala 基礎（十四）：Scala 模式匹配（二）

1匹配陣列 1）Array(0) 匹配只有一個元素且為0的陣列。 2）Array(x,y) 匹配陣列有兩個元素，並將兩個元素賦值為x和y。當然可以依次類推Array(x,y,z) 匹配陣列有3個元素的等等....

Quartz.Net系列（十五）：Quartz.Net四種修改配置的方式

案例：修改預設執行緒個數 1.NameValueCollection System.Collections.Specialized.NameValueCollection collection = new System.Collections.Specialized.NameValueCollection();