HIVE原始碼(1):HQL 是如何轉換為 MR 任務的

阿新 • • 發佈：2021-08-22

1 Hive 的核心組成介紹

1）使用者介面：Client CLI（command-line interface）、JDBC/ODBC(jdbc 訪問 hive)、WEBUI（瀏覽器訪問 hive） 2）元資料：Metastore 元資料包括：表名、表所屬的資料庫（預設是 default）、表的擁有者、列/分割槽欄位、表的型別（是否是外部表）、表的資料所在目錄等；預設儲存在自帶的 derby 資料庫中，推薦使用 MySQL 儲存 Metastore 3）Hadoop 使用 HDFS 進行儲存，使用 MapReduce 進行計算。 4）驅動器：Driver 5）解析器（SQL Parser）將 SQL 字串轉換成抽象語法樹 AST，這一步一般都用第三方工具庫完成，比如 antlr；對 AST 進行語法分析，比如表是否存在、欄位是否存在、SQL 語義是否有誤。 6）編譯器（Physical Plan）將 AST 編譯生成邏輯執行計劃。 7）優化器（Query Optimizer）對邏輯執行計劃進行優化。 8）執行器（Execution）把邏輯執行計劃轉換成可以執行的物理計劃。對於 Hive 來說，就是 MR/Spark。

2 HQL 轉換為 MR 任務流程說明

1.進入程式，利用Antlr框架定義HQL的語法規則，對HQL完成詞法語法解析，將HQL轉換為為AST（抽象語法樹）； 2.遍歷AST，抽象出查詢的基本組成單元QueryBlock（查詢塊），可以理解為最小的查詢執行單元； 3.遍歷QueryBlock，將其轉換為OperatorTree（操作樹，也就是邏輯執行計劃），可以理解為不可拆分的一個邏輯執行單元； 4.使用邏輯優化器對OperatorTree（操作樹）進行邏輯優化。例如合併不必要的ReduceSinkOperator，減少Shuffle資料量； 5.遍歷OperatorTree，轉換為TaskTree。也就是翻譯為MR任務的流程，將邏輯執行計劃轉換為物理執行計劃； 6.使用物理優化器對TaskTree進行物理優化； 7.生成最終的執行計劃，提交任務到Hadoop叢集執行。

HIVE原始碼(1):HQL 是如何轉換為 MR 任務的

1 Hive 的核心組成介紹

2 HQL 轉換為 MR 任務流程說明

HIVE原始碼(5):HQL 轉換為 MR 原始碼詳細解讀(4)

HIVE原始碼(1):HQL 是如何轉換為 MR 任務的

PHP 原始碼 — intval 函式原始碼分析（演演算法：字串轉換為整形）

作業：分析以下需求，並用程式碼實現 1.已知日期字串:“2015-10-20“,將該日期字串轉換為日期物件 2.將(1)中的日期物件轉換為日曆類的物件 3.根據日期物件獲取改日期是

MySQL8 把JSON欄位，直接轉換為多行資料1

LeetCode 將一個按照升序排列的有序陣列，轉換為一棵高度平衡二叉搜尋樹

opencv3/C++ 將圖片轉換為視訊的例項

C++實現視訊流轉換為圖片方式

使用python將mysql資料庫的資料轉換為json資料的方法

python實現將一維列表轉換為多維列表(numpy+reshape)

利用Python小工具實現3秒鐘將視訊轉換為音訊

詳解Django將秒轉換為xx天xx時xx分

使用Python將字串轉換為格式化的日期時間字串

Python+OpenCV實現將影象轉換為二進位制格式

Java如何把陣列轉換為ArrayList

TensorFlow實現checkpoint檔案轉換為pb檔案

JavaScript將陣列轉換為連結串列的方法

javascript將16進位制的字串轉換為10進位制整數hex

java將String字串轉換為List<Long>型別例項方法

Android 將網路的Url資源轉換為Drawable資源方式

HIVE原始碼(1):HQL 是如何轉換為 MR 任務的

1 Hive 的核心組成介紹

2 HQL 轉換為 MR 任務流程說明

相關推薦