背景

SQL作為一門標準的、通用的、簡單的DSL，在大資料分析中有著越來越重要的地位;Spark在批處理引擎領域當前也是處於絕對的地位，而Spark2.0中的SparkSQL也支援ANSI-SQL 2003標準。因此SparkSQL在大資料分析中的地位不言而喻。
本文將通過分析一條SQL在Spark中的解析執行過程來梳理SparkSQL執行的一個流程。

案例分析

程式碼

val spark = SparkSession.builder().appName("TestSql").master("local[*]").enableHiveSupport().getOrCreate()
val df = spark.sql("select sepal_length,class from origin_csvload.csv_iris_qx  order by  sepal_length limit 10 ")
df.show(3)

我們在數倉中新建了一張表origin_csvload.csv_iris_qx，然後通過SparkSQL執行了一條SQL，由於整個過程由於是懶載入的，需要通過Terminal方法觸發，此處我們選擇show方法來觸發。

原始碼分析

詞法解析、語法解析以及分析

sql方法會執行以下3個重點：

sessionState.sqlParser.parsePlan(sqlText)：將SQL字串通過ANTLR解析成邏輯計劃（Parsed Logical Plan）
sparkSession.sessionState.executePlan(logicalPlan)：執行邏輯計劃，此處為懶載入，只新建QueryExecution

例項，並不會觸發實際動作。需要注意的是QueryExecution其實是包含了SQL解析執行的4個階段計劃（解析、分析、優化、執行）
QueryExecution.assertAnalyzed()：觸發語法分析，得到分析計劃（Analyzed Logical Plan）

def sql(sqlText: String): DataFrame = {
    //1:Parsed Logical Plan
    Dataset.ofRows(self, sessionState.sqlParser.parsePlan(sqlText))
}
  
def ofRows(sparkSession: SparkSession, logicalPlan: LogicalPlan): DataFrame = {
    val qe = sparkSession.sessionState.executePlan(logicalPlan)//d-1
    qe.assertAnalyzed()//d-2
    new Dataset[Row](sparkSession, qe, RowEncoder(qe.analyzed.schema))
}

//d-1
def executePlan(plan: LogicalPlan): QueryExecution = new QueryExecution(sparkSession, plan)

//2:Analyzed Logical Plan
lazy val analyzed: LogicalPlansparkSession.sessionState.analyzer.executeAndCheck(logical)

解析計劃和分析計劃

sql解析後計劃如下：

== Parsed Logical Plan ==
'GlobalLimit 10
+- 'LocalLimit 10
   +- 'Sort ['sepal_length ASC NULLS FIRST], true
      +- 'Project ['sepal_length, 'class]
         +- 'UnresolvedRelation `origin_csvload`.`csv_iris_qx`

主要是將SQL一一對應地翻譯成了catalyst的操作，此時資料表並沒有被解析，只是簡單地識別為表。而分析後的計劃則包含了欄位的位置、型別，表的具體型別（parquet）等資訊。

== Analyzed Logical Plan ==
sepal_length: double, class: string
GlobalLimit 10
+- LocalLimit 10
   +- Sort [sepal_length#0 ASC NULLS FIRST], true
      +- Project [sepal_length#0, class#4]
         +- SubqueryAlias `origin_csvload`.`csv_iris_qx`
            +- Relation[sepal_length#0,sepal_width#1,petal_length#2,petal_width#3,class#4] parquet

此處有個比較有意思的點，UnresolvedRelation origin_csvload.csv_iris_qx被翻譯成了一個子查詢別名，讀取檔案出來的資料註冊成了一個表，這個是不必要的，後續的優化會消除這個子查詢別名。

優化以及執行

以DataSet的show方法為例，show的方法呼叫鏈為showString->getRows->take->head->withAction，我們先來看看withAction方法：

def head(n: Int): Array[T] = withAction("head", limit(n).queryExecution)(collectFromPlan)
private def withAction[U](name: String, qe: QueryExecution)(action: SparkPlan => U) = {
    val 
    result= SQLExecution.withNewExecutionId(sparkSession, qe) {
       action(qe.executedPlan)
    }
    result
}

withAction方法主要執行如下邏輯：
1. 拿到快取的解析計劃，使用遍歷優化器執行解析計劃，得到若干優化計劃。
2. 獲取第一個優化計劃，遍歷執行前優化獲得物理執行計劃，這是已經可以執行的計劃了。
3. 執行物理計劃，返回實際結果。至此，這條SQL之旅就結束了。

//3:Optimized Logical Plan,withCachedData為Analyzed Logical Plan，即快取的變數analyzed
lazy val optimizedPlan: LogicalPlan = sparkSession.sessionState.optimizer.execute(withCachedData)
lazy val sparkPlan: SparkPlan = planner.plan(ReturnAnswer(optimizedPlan)).next()
//4:Physical Plan
lazy val executedPlan: SparkPlan = prepareForExecution(sparkPlan)

優化計劃及物理計劃

優化後的計劃如下，可以看到SubqueryAliases已經沒有了。

== Optimized Logical Plan ==
GlobalLimit 10
+- LocalLimit 10
   +- Sort [sepal_length#0 ASC NULLS FIRST], true
      +- Project [sepal_length#0, class#4]
         +- Relation[sepal_length#0,sepal_width#1,petal_length#2,petal_width#3,class#4] parquet

具體的優化點如下圖所示，行首有!表示優化的地方。

其中"=== Result of Batch Finish Analysis ==="表示"Finish Analysis"的規則簇（參見附錄一）被應用成功，可以看到該規則簇中有一個消除子查詢別名的規則EliminateSubqueryAliases

Batch("Finish Analysis", Once,
      EliminateSubqueryAliases,
      ReplaceExpressions,
      ComputeCurrentTime,
      GetCurrentDatabase(sessionCatalog),
      RewriteDistinctAggregates)

最後根據物理計劃生成規則（附錄二）可以得到物理計劃，這就是已經可以執行的計劃了。具體如下：

== Physical Plan ==
TakeOrderedAndProject(limit=10, orderBy=[sepal_length#0 ASC NULLS FIRST], output=[sepal_length#0,class#4])
+- *(1) Project [sepal_length#0, class#4]
   +- *(1) FileScan parquet origin_csvload.csv_iris_qx[sepal_length#0,class#4] Batched: true, Format: Parquet, Location: CatalogFileIndex[hdfs://di124:8020/user/hive/warehouse/origin_csvload.db/csv_iris_qx], PartitionCount: 1, PartitionFilters: [], PushedFilters: [], ReadSchema: struct<sepal_length:double,class:string>

總結

本文簡述了一條SQL是如何從字串經過詞法解析、語法解析、規則優化等步驟轉化成可執行的物理計劃，最後以一個Terminal方法觸發邏輯返回結果。本文可為後續SQL優化提供一定思路，之後可再詳述具體的SQL優化原則。

附錄一：優化方法

分析計劃會依次應用如下優化：

前置優化。當前為空。
預設優化。主要有如下類別，每個類別分別有若干優化規則。

Optimize Metadata Only Query
Extract Python UDFs
Prune File Source Table Partitions
Parquet Schema Pruning
Finish Analysis
Union
Subquery
Replace Operators
Aggregate
Operator Optimizations
Check Cartesian Products
Decimal Optimizations
Typed Filter Optimization
LocalRelation
OptimizeCodegen
RewriteSubquery

後置優化。當前為空。
使用者提供的優化。來自experimentalMethods.extraOptimizations，當前也沒有。

附錄二：物理計劃生成規則

生成物理執行計劃的規則如下：

PlanSubqueries
EnsureRequirements
CollapseCodegenStages
ReuseExchange
ReuseSubquery

本文由部落格一文多發平臺 OpenWrite 釋出！

相關推薦

騰訊雲建站主機的一次奇妙之旅

訪問 TE 臨時領取如果 HR 數字空間自動十星主機 - 騰訊雲建站主機體驗過無數個主機產商的虛擬主機服務，今天我把最佳虛擬主機產商頒給騰訊雲，因為它給我太多驚喜。驚喜1：配置極高騰訊雲建站主機只配置了三款，基礎版、專業版、旗艦版，而且網頁空間最低都是4

產品經理與需求文件的一場奇妙之旅

產品經理與需求文件的一場奇妙之旅 1.專案執行過程中問題出現在哪裡？需求評審需嚴謹，多次評審敲定主要需求和細緻需求業務需求明確的需求文件雖是類似專案，但不可完全照搬上一個專案需求講師說的：開發測試人員看不到完善的需求文件，工作效

每日一條js之陣列物件forEach遍歷陣列方法

方法： array.forEach(function(當前元素（必）, 當前元素的索引值, 當前元素所屬的陣列物件), thisValue（如果這個引數為空， "undefined" 會傳遞給 "this" 值）) 陣列物件的forEach中有兩個引數第一個是回撥函式，

記一次折騰之旅（兼 Classias 安裝教程）

最近看一篇ACL論文，作者原始碼裡面用到了一個停止維護多年的庫，叫做Classias。這個庫有一個特點，就是安裝都能失敗。以下是安裝教程，如果你按照官方教程安裝，那麼，恭喜你，只會一直裝不上，裝上了也用不了。 1、安裝libLBFGS（因為Classias需要這個庫）

在Hyper-V下安裝Ubuntu的一次神奇之旅

作為一名想要開發windowsphone的菜鳥，果斷用上了Win8.1專業版，安裝了VS2013及wp8等SDK，接著，我發現現在好多大牛都在用linux，所以也想裝B一下，安裝個Ubnutu虛擬機器吧（linux確實太高階）。那麼問題來了，虛擬機器哪家好？VMWare啊

從一段 Dubbo 原始碼到 CPU 分支預測的一次探險之旅

> 每個時代，都不會虧待會學習的人。大家好，我是 yes。這次本來是打算寫一篇 RocketMQ 相關文章的，但是被插隊了，我也是沒想到的。說來也是巧最近在看 Dubbo 原始碼，然後發現了一處很奇怪的程式碼，於是就有了這篇文章，讓我們來看一下這段程式碼，它屬於 `ChannelEventRunn

一條資料的HBase之旅，簡明HBase入門教程-開篇

一些常見的HBase新手問題什麼樣的資料適合用HBase來儲存？既然HBase也是一個數據庫，能否用它將現有系統中昂貴的Oracle替換掉？存放於HBase中的資料記錄，為何不直接存放於HDFS之上？能否直接使用HBase來儲存檔案資料？Region(HBase中的資料分片)遷移後，資料是否也會被遷移？為何基

iOS之旅--UILabel後邊出現一條線的解決辦法

UILabel 在label的周圍出現一條線，如圖：原因:frame的寬高沒有取整,或者說上下左右邊沒有取整解決方法:在取frame得時候,加上CGRectIntegral,使得寬、高得到一個整數,然後就完美的解決這個問題了修改前:label.f

一條資料的HBase之旅，簡明HBase入門教程-Read全流程

這是《一條資料的HBase之旅》系列文章的第4篇，介紹HBase Get&Scan的核心思路。系列文章在閱讀此文之前，希望你已經讀過本系列文章的前3篇內容：本文思路介紹HBase的兩種讀取模式：Get與Scan 如何發起一次Get請求，Get有哪些關鍵引數如何發

一條資料的HBase之旅，簡明HBase入門教程-Flush與Compaction

Flush與Compaction其實屬於Write流程的繼續，所以本文應該稱之為”Write後傳“。在2.0版本中，最主要的變化就是新增了In-memory Flush/Compaction，而DateTieredCompaction並不算2.0新加入的特性，2.0版本在Compaction核心演

一條Sql的Spark之旅

背景 SQL作為一門標準的、通用的、簡單的DSL，在大資料分析中有著越來越重要的地位;Spark在批處理引擎領域當前也是處於絕對的地位，而Spark2.0中的SparkSQL也支援ANSI-SQL 2003標準。因此SparkSQL在大資料分析中的地位不言而喻。本文將通過分析一條SQL在Spark中的解

【SSH之旅】一步步學習Hibernate框架（一）：關於持久化

stc localhost 對象 schema hbm.xml java let pass [] 在不引用不論什麽框架下，我們會通過平庸的代碼不停的對數據庫進行操作，產生了非常多冗余的可是又有規律的底層代碼，這樣頻繁的操作數據庫和大量的底層代碼的反復

css重構之旅（一）

rdquo lan set 變化部分網站一個寬度 lang css重構之旅 >前言：今年我大一,馬上就要大二了。從高三畢業暑假到大學的這一年馬上過去，馬上迎來大二生活.學習前端也有將近一年了。一昧去追求那些視覺的效果和相對高端和新穎的技術，反而忽略了最基礎

一次失敗的PHP擴展開發之旅

erro 一個 google 討論 c++開發 .com center goroutine text 一次失敗的PHP擴展開發之旅 By warezhou 2014.11.19 緣起經過不斷的持續叠代。我們部門的協程版網絡框架（CoSvrFrame）最終出爐了！

一、WCF學習之旅-創建第一個服務

img image pub 頁面添加服務 ets art idt null WCF基本介紹：http://baike.baidu.com/link?url=TGjLYt3HS4dt4-hIiGRknLy6udRsZ52QxJz9cmRKlR4NXbP9rCZDsKn2fD

[寒江孤葉丶的Cocos2d-x之旅_33]RichTextEx一款通過HTML標簽控制文字樣式的富文本控件

ast number blink js版本號領取 size 創建 sub require RichTextEx一款通過HTML標簽控制文字樣式的富文本控件原創文章，歡迎轉載。轉載請註明：文章來自[寒江孤葉丶的Cocos2d-x之旅系列] 博客地址

Vue入門之旅：一報錯 Unknown ... make sure to provide the "name" option及error compiling template

ont methods rect return tex exactly gist () 編譯報錯一： Unknown custom element: <custom-select> - did you register the component correc

小白的linux學習之旅（一）

探索linux一、進入系統*）普通用戶登陸student 普通用戶，密碼student*)超級用戶登陸 —〉not listed 點擊未列出 username 提示輸入用戶名稱 —〉root root 為系統超級用戶 passw

我的C#跨平臺之旅（二）：開發一組標準的Restful API

ref 運行 mar margin bruce ora soft left 啟用添加NuGet引用：Microsoft.AspNet.WebApi.Owin 在啟動類啟用WebApi；添加一個Controller類，代碼如下：運行程序

2018第一發：記一次【Advanced Installer】打包之旅

4.0 config文件 cli 簡單官網 class 用法 process file 一、前言 2017年最後幾天，你們都高高興興的跨年，博主還在加班制作.net安裝包。因為年前要出來第一版的安裝包，所以博主是加班加點啊。本來想用VS自帶的制作工具，不過用過的人都知道