做一個平臺，讓對手發來一個很爛的sql，然後系統返回一個優化好的sql(二)

阿新 • • 發佈：2020-11-23

上一篇：做一個平臺，讓對手發來一個很爛的sql，然後系統返回一個優化好的sql(一)

因為主要想借助hive的思路來實現對sql的優化，所以這一篇主要是梳理一條sql在hive內部大概是什麼樣的生命週期

首先通過一張圖看下，內部sql大概執行流：

sql經過一系列的規則處理後，最後變成task tree，然後mapreduce通過task tree來執行job

接下來通過原始碼，看下是如何處理的！

另外我把編譯好的hive(1.2.1版本)和hadoop(2.7.0版本)程式碼放在Git上，這樣感興趣的同學直接下載下來，就可以在本地debug跑

Hive編譯後的原始碼：https://github.com/ 
niutaofan/apache-hive-1.2.1-src.git
hadoop編譯後的原始碼：連結:https://pan.baidu.com/s/1meF9MFHUAyY1Mk7mMOdqIg 密碼:fwnh

1、大體流程

1）、Driver.compile 接收SQL ，然後通過：pd.parse(command)將SQL轉換為ASTNode（這個過程包含了詞法解析和語法解析）

　　1.1、ParseDriver.parse接收到sql語句，然後通過：r = parser.statement();解析了詞法和語法

　　1.2、拿到解析後的HiveParser.statement_return，然後通過ASTNode tree = (ASTNode) r.getTree();獲取到ASTNode

2）、通過sem.analyze(tree, ctx);從AST Node到Phsical Optimize這幾個階段，都是在SemanticAnalyzer.analyzeInternal()方法中進行的(語義解析、生成邏輯執行計劃、優化邏輯執行計劃等)

　　2.1、拿到ASTNode之後，通過SemanticAnalyzer.analyzeInternal()進行優化；

　　2.2、程式碼會排程到CalcitePlanner.analyzeInternal (這個方法內部會做一個流程的判斷：if (runCBO) 是否執行CBO優化)，當然不管執行RBO還是CBO，最後呼叫的都是：SemanticAnalyzer.analyzeInternal()

　　2.3、在SemanticAnalyzer.analyzeInternal()方法中，首先基於ASTNode做了各種規則優化，根據需求包括了籠統的：RBO和CBO的優化，最終返回Operator

　　　　在Hive中，使用Calcite來進行核心優化，它將AST Node轉換成QB，又將QB轉換成Calcite的RelNode，在Calcite優化完成後，又會將RelNode轉換成Operator Tree，說起來很簡單，但這又是一條很長的呼叫鏈。

　　　　Calcite優化的主要類是CalcitePlanner，更加細節點，是在CalcitePlannerAction.apply()這個方法，CalcitePlannerAction是一個內部類，包括將QB轉換成RelNode，優化具體操作都是在這個方法中進行的。

2、一條sql的原始碼之路

如果想debug的方式走讀原始碼，那麼需要如下幾個步驟：

第一步：啟動本地的hadoop原始碼（NameNode和DataNode）

第二步：啟動hive的metastore服務

第三步：啟動（Debug方式）CliDriver類

根據上文提示， sql在客戶端執行後，會在Driver.compile 接收SQL ，然後通過：pd.parse(command)將SQL轉換為ASTNode（這個過程包含了詞法解析和語法解析）

eg. 執行一段sql（sql的資料，提前放入hive了），看下hive是如何解析和優化的

select 
  * 
from 
  (
    select 
      Sname, 
      Sex, 
      Sage, 
      Sdept, 
      count(1) as num 
    from 
      student_ext 
    group by 
      Sname, 
      Sex, 
      Sage, 
      Sdept
  ) t1 
where 
  Sage > 10;

Driver.compile程式碼：

上圖比較重要的點：

ParseDriver

Hive使用的是antlr來做詞法、語法的解析工作，最終生成一棵有語義的ast樹
而在Hive中呼叫antlr類的程式碼org.apache.hadoop.hive.ql.parse.ParseDriver類，通過ParseDriver.parse 可以返回HiveParser.statement_return

而這個HiveParser.statement_return通過強轉，即可拿到ASTNode，如下圖：

######################################################思考############################################################################################

如果需求是快速實現對使用者輸入的sql進行詞法和語法解析，以便達到自定義或者sql優化的需求，那麼可不可以利用上述內容進行重構？？？

答案是肯定可以的，而且非常簡單，只需要知道，hive在做sql的詞法和語法解析，使用的是哪個包（org.apache.hadoop.hive.ql.parse）

然後開啟一個新的工程，匯入hive-exec包即可

第一步：maven匯入依賴

 <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec-nt</artifactId>
            <version>1.2.1</version>
 </dependency>
 <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.1</version>
 </dependency>

第二步：程式碼編寫

import org.apache.hadoop.hive.ql.parse.ASTNode;
import org.apache.hadoop.hive.ql.parse.ParseDriver;
import org.apache.hadoop.hive.ql.parse.ParseException;
/**
 * Created by niutao
 */
public class Tests {
    public static void main(String[] args) {
        String sql = "SELECT `object_id`, `column1_id`, COUNT(DISTINCT `cookie`) AS `COOKIE`\n" +
                "FROM `D_DSJ_INDEX_PDS`.`INDEX2_FLW_COOKIE_INTEREST_OBJECT_D_FACT`\n" +
                "WHERE `dim_day` >= '2020-03-03' AND `dim_day` <= '2020-03-16' AND `series_id` = '692'\n" +
                "GROUP BY `object_id`, `column1_id`\n" +
                "ORDER BY COUNT(DISTINCT `cookie`) IS NULL DESC, COUNT(DISTINCT `cookie`) DESC\n" +
                "LIMIT 200";
        //1、匯入模仿hive，匯入ParseDriver
        ParseDriver pd = new ParseDriver();
        //2、解析sql
        try {
            ASTNode ast = pd.parse(sql);
            //3、測試，列印解析樹
            System.out.println(ast.dump());
        } catch (ParseException e) {
            e.printStackTrace();
        }
    }
}

列印結果：

通過以上方式，即可將sql解析出ASTNode

######################################################################################################################################################

接著之前的原始碼，看下在生成ASTNode之後，是如何根據ASTNode來做優化的;

請檢視下一篇：做一個平臺，讓對手發來一個很爛的sql，然後系統返回一個優化好的sql（三）

做一個平臺，讓對手發來一個很爛的sql，然後系統返回一個優化好的sql(二)

1、大體流程

2、一條sql的原始碼之路

做一個平臺，讓對手發來一個很爛的sql，然後系統返回一個優化好的sql(一)

做一個平臺，讓對手發來一個很爛的sql，然後系統返回一個優化好的sql(二)

Redmi 遊戲手機入網，搭載聯發科天璣 1200 晶片，代號 ares

榮耀 Magic3/Pro 手機發布 Magic UI 5.0.0.116 系統更新：優化相機，預置“暢連”通話應用

“員工暴力分揀，建議客戶發順豐”上熱搜，申通迴應：開除言論不當人員、處罰承包區

觸控板手勢增強器Multitouch，讓你的Mac觸控板更加完美，手勢更加豐富！

在面試時用php+swoole編寫了一個簡易聊天室，面試官讓我明天來上班！

搭建一個強大的資料平臺，讓你的資料分析事半功倍！

Doinb發視訊自嘲比賽失利：卡爾瑪順風讓對手噁心，逆風是讓隊友噁心！

結合實際需求，在webapi內利用WebSocket建立單向的訊息推送平臺，讓A頁面和服務端建立WebSocket連線，讓其他頁面可以及時給A頁面推送訊息

這幾個程式設計小技巧，讓你程式碼效率提高一個檔次java

Python寫一個物件，讓它自己能夠迭代

玉兔二號發來中秋祝福，還公佈了一項發現

NO.111 禪道匯出資料做透視表，讓你輕鬆做年終工作總結。

秋招必備！阿里產出的高併發+JVM套餐，讓offer隨手就來

老闆讓只懂Java基本語法的我，基於AQS實現一個鎖

使用 Element UI Select 元件的 value-key 屬性，讓繫結值可以為一個物件

給定一個由N個非負整數構成的序列，我們來定義一下序列的中位數，如果N是奇數，在對序列排序後，中位數就是最中間的那個數，即排序後，中位數的位置為(N+1)/2，這裡序列的位置從1開始。如果N是偶數，則中

想做Windows平臺高階工程師，卻連視窗原理都不懂，朋友都勸我放棄~

css中使用unicode和偽類，不使用圖片來做箭頭

做一個平臺，讓對手發來一個很爛的sql，然後系統返回一個優化好的sql(二)

1、大體流程

2、一條sql的原始碼之路

相關推薦