Spark修煉之道（高階篇）——Spark原始碼閱讀：第十二節 Spark SQL 處理流程分析

阿新 • • 發佈：2018-12-25

作者：周志湖

下面的程式碼演示了通過Case Class進行表Schema定義的例子：

// sc is an existing SparkContext.
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
// this is used to implicitly convert an RDD to a DataFrame.
import sqlContext.implicits._

// Define the schema using a case class.
// Note: Case classes in Scala 2.10 can support only up to 22 
 fields. To work around this limit,
// you can use custom classes that implement the Product interface.
case class Person(name: String, age: Int)

// Create an RDD of Person objects and register it as a table.
val people = sc.textFile("examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0 
), p(1).trim.toInt)).toDF()
people.registerTempTable("people")

// SQL statements can be run by using the sql methods provided by sqlContext.
val teenagers = sqlContext.sql("SELECT name, age FROM people WHERE age >= 13 AND age <= 19")

// The results of SQL queries are DataFrames and support all the normal RDD operations.
// The columns of a row in 
 the result can be accessed by field index:
teenagers.map(t => "Name: " + t(0)).collect().foreach(println)

// or by field name:
teenagers.map(t => "Name: " + t.getAs[String]("name")).collect().foreach(println)

// row.getValuesMap[T] retrieves multiple columns at once into a Map[String, T]
teenagers.map(_.getValuesMap[Any](List("name", "age"))).collect().foreach(println)
// Map("name" -> "Justin", "age" -> 19)

（1）sql方法返回DataFrame

  def sql(sqlText: String): DataFrame = {
    DataFrame(this, parseSql(sqlText))
  }

其中parseSql(sqlText)方法生成相應的LogicalPlan得到，該方法原始碼如下：

//根據傳入的sql語句，生成LogicalPlan
protected[sql] def parseSql(sql: String): LogicalPlan = ddlParser.parse(sql, false)

ddlParser物件定義如下：

protected[sql] val sqlParser = new SparkSQLParser(getSQLDialect().parse(_))
protected[sql] val ddlParser = new DDLParser(sqlParser.parse(_))

（2）然後呼叫DataFrame的apply方法

private[sql] object DataFrame {
  def apply(sqlContext: SQLContext, logicalPlan: LogicalPlan): DataFrame = {
    new DataFrame(sqlContext, logicalPlan)
  }
}

可以看到，apply方法引數有兩個，分別是SQLContext和LogicalPlan，呼叫的是DataFrame的構造方法，具體原始碼如下：

//DataFrame構造方法，該構造方法會自動對LogicalPlan進行分析，然後返回QueryExecution物件
def this(sqlContext: SQLContext, logicalPlan: LogicalPlan) = {
    this(sqlContext, {
      val qe = sqlContext.executePlan(logicalPlan)
      //判斷是否已經建立，如果是則拋異常
      if (sqlContext.conf.dataFrameEagerAnalysis) {
        qe.assertAnalyzed()  // This should force analysis and throw errors if there are any
      }
      qe
    })
  }

（3）val qe = sqlContext.executePlan(logicalPlan) 返回QueryExecution， sqlContext.executePlan方法原始碼如下：

protected[sql] def executePlan(plan: LogicalPlan) =
    new sparkexecution.QueryExecution(this, plan)

QueryExecution類中表達了Spark執行SQL的主要工作流程，具體如下

class QueryExecution(val sqlContext: SQLContext, val logical: LogicalPlan) {

  @VisibleForTesting
  def assertAnalyzed(): Unit = sqlContext.analyzer.checkAnalysis(analyzed)

  lazy val analyzed: LogicalPlan = sqlContext.analyzer.execute(logical)

  lazy val withCachedData: LogicalPlan = {
    assertAnalyzed()
    sqlContext.cacheManager.useCachedData(analyzed)
  }

  lazy val optimizedPlan: LogicalPlan = sqlContext.optimizer.execute(withCachedData)

  // TODO: Don't just pick the first one...
  lazy val sparkPlan: SparkPlan = {
    SparkPlan.currentContext.set(sqlContext)
    sqlContext.planner.plan(optimizedPlan).next()
  }

  // executedPlan should not be used to initialize any SparkPlan. It should be
  // only used for execution.
  lazy val executedPlan: SparkPlan = sqlContext.prepareForExecution.execute(sparkPlan)

  /** Internal version of the RDD. Avoids copies and has no schema */
  //呼叫toRDD方法執行任務將結果轉換為RDD
  lazy val toRdd: RDD[InternalRow] = executedPlan.execute()

  protected def stringOrError[A](f: => A): String =
    try f.toString catch { case e: Throwable => e.toString }

  def simpleString: String = {
    s"""== Physical Plan ==
       |${stringOrError(executedPlan)}
      """.stripMargin.trim
  }

  override def toString: String = {
    def output =
      analyzed.output.map(o => s"${o.name}: ${o.dataType.simpleString}").mkString(", ")

    s"""== Parsed Logical Plan ==
       |${stringOrError(logical)}
       |== Analyzed Logical Plan ==
       |${stringOrError(output)}
       |${stringOrError(analyzed)}
       |== Optimized Logical Plan ==
       |${stringOrError(optimizedPlan)}
       |== Physical Plan ==
       |${stringOrError(executedPlan)}
       |Code Generation: ${stringOrError(executedPlan.codegenEnabled)}
    """.stripMargin.trim
  }
}

可以看到，SQL的執行流程為
1.Parsed Logical Plan：LogicalPlan
2.Analyzed Logical Plan：
lazy val analyzed: LogicalPlan = sqlContext.analyzer.execute(logical)
3.Optimized Logical Plan：lazy val optimizedPlan: LogicalPlan = sqlContext.optimizer.execute(withCachedData)
4. Physical Plan：lazy val executedPlan: SparkPlan = sqlContext.prepareForExecution.execute(sparkPlan)

可以呼叫results.queryExecution方法檢視，程式碼如下：

scala> results.queryExecution
res1: org.apache.spark.sql.SQLContext#QueryExecution =
== Parsed Logical Plan ==
'Project [unresolvedalias('name)]
 'UnresolvedRelation [people], None

== Analyzed Logical Plan ==
name: string
Project [name#0]
 Subquery people
  LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at createDataFrame at <console>:47

== Optimized Logical Plan ==
Project [name#0]
 LogicalRDD [name#0,age#1], MapPartitionsRDD[4] at createDataFrame at <console>:47

== Physical Plan ==
TungstenProject [name#0]
 Scan PhysicalRDD[name#0,age#1]

Code Generation: true

（4）然後呼叫DataFrame的主構造器完成DataFrame的構造

class DataFrame private[sql](
    @transient val sqlContext: SQLContext,
    @DeveloperApi @transient val queryExecution: QueryExecution) extends Serializable

（5）
當呼叫DataFrame的collect等方法時，便會觸發執行executedPlan

  def collect(): Array[Row] = withNewExecutionId {
    queryExecution.executedPlan.executeCollect()
  }

例如：

scala> results.collect
res6: Array[org.apache.spark.sql.Row] = Array([Michael], [Andy], [Justin])

整體流程圖如下：
這裡寫圖片描述

Spark修煉之道（高階篇）——Spark原始碼閱讀：第十三節 Spark SQL之SQLContext（一)

作者：周志湖 1. SQLContext的建立 SQLContext是Spark SQL進行結構化資料處理的入口，可以通過它進行DataFrame的建立及SQL的執行，其建立方式如下： //sc為SparkContext val sqlContext

Spark修煉之道（高階篇）——Spark原始碼閱讀：第十二節 Spark SQL 處理流程分析

作者：周志湖下面的程式碼演示了通過Case Class進行表Schema定義的例子： // sc is an existing SparkContext. val sqlContext = new org.apache.spark.sql.SQLConte

Spark修煉之道（高階篇）——Spark原始碼閱讀：第八節 Task執行

Task執行在上一節中，我們提到在Driver端CoarseGrainedSchedulerBackend中的launchTasks方法向Worker節點中的Executor傳送啟動任務命令，該命令的接收者是CoarseGrainedExecutorBack

Spark修煉之道（高階篇）——Spark原始碼閱讀：第一節 Spark應用程式提交流程

作者：搖擺少年夢微訊號： zhouzhihubeyond spark-submit 指令碼應用程式提交流程在執行Spar應用程式時，會將spark應用程式打包後使用spark-submit指令碼提交到Spark中執行，執行提交命令如下： root@s

Spark修煉之道（基礎篇）——Linux大資料開發基礎：第十三節：Shell程式設計入門（五)

本節主要內容 while expression do command command done （1）計數器格式適用於迴圈次數已知或固定時 root@sparkslave02:~/ShellLearning/Chapter13# vim w

Spark修煉之道（進階篇）——Spark入門到精通：第一節 Spark 1.5.0叢集搭建

作者：周志湖網名：搖擺少年夢微訊號：zhouzhihubeyond 本節主要內容作業系統環境準備 Hadoop 2.4.1叢集搭建 Spark 1.5.0 叢集部署注：在利用CentOS 6.5作業系統安裝spark 1.5叢集過程中，

Spark修煉之道（進階篇）——Spark入門到精通：第十四節 Spark Streaming 快取、Checkpoint機制

作者：周志湖微訊號：zhouzhihubeyond 主要內容 Spark Stream 快取 Checkpoint 案例 1. Spark Stream 快取通過前面一系列的課程介紹，我們知道DStream是由一系列的RDD構成的，

Spark修煉之道（進階篇）——Spark入門到精通：第十六節 Spark Streaming與Kafka

作者：周志湖主要內容 Spark Streaming與Kafka版的WordCount示例（一） Spark Streaming與Kafka版的WordCount示例（二） 1. Spark Streaming與Kafka版本的WordCount示例

Spark修煉之道（進階篇）——Spark入門到精通：第十節 Spark SQL案例實戰（一）

作者：周志湖放假了，終於能抽出時間更新部落格了……. 1. 獲取資料本文通過將github上的Spark專案git日誌作為資料，對SparkSQL的內容進行詳細介紹資料獲取命令如下： [[email protected] spa

Spark修煉之道（進階篇）——Spark入門到精通：第十三節 Spark Streaming—— Spark SQL、DataFrame與Spark Streaming

主要內容 Spark SQL、DataFrame與Spark Streaming 1. Spark SQL、DataFrame與Spark Streaming import org.apache.spark.SparkConf import org

Spark修煉之道（進階篇）——Spark入門到精通：第十五節 Kafka 0.8.2.1 叢集搭建

作者：周志湖微訊號：zhouzhihubeyond 本節為下一節Kafka與Spark Streaming做鋪墊主要內容 1.kafka 叢集搭建 1. kafka 叢集搭建 kafka 安裝與配置 tar -zxvf kafka_2

Spark修煉之道（進階篇）——Spark入門到精通：第九節 Spark SQL執行流程解析

1.整體執行流程使用下列程式碼對SparkSQL流程進行分析，讓大家明白LogicalPlan的幾種狀態，理解SparkSQL整體執行流程 // sc is an existing SparkContext. val sqlContext = new or

Spark修煉之道（進階篇）——Spark入門到精通：第六節 Spark程式設計模型（三)

作者：周志湖網名：搖擺少年夢微訊號：zhouzhihubeyond 本節主要內容 RDD transformation（續) RDD actions 1. RDD transformation（續) （1）repartitionAnd

Spark修煉之道（進階篇）——Spark入門到精通：第十節 Spark Streaming（一)

本節主要內容 Spark流式計算簡介 Spark Streaming相關核心類入門案例 1. Spark流式計算簡介 Hadoop的MapReduce及Spark SQL等只能進行離線計算，無法滿足實時性要求較高的業務需求，例如實時推薦、實時

[轉載]我的WafBypass之道（Misc篇）

review uoj 行程 onclick aid 歷史 eth reads sim 厲害，滿滿的幹貨，讓我膜一下現在位置：首頁 > 文章 > Web安全 > 文章 > 代碼審計 > 正文我的WafBypass之道（Misc篇）

從誌願軍“斷刀”再論敏捷之道（上篇）

慢慢失敗多個之一朝鮮無法一次 mark 學習從誌願軍“斷刀”再論敏捷之道（上篇）作者：歐德張(原創) ??在現在的IT項目中，以往常用的是瀑布模型套路，這些年敏捷模式大受歡迎,關於敏捷，現在諸人開口PMI-ACP，閉口則SCRUM，又有諸多實踐、案例遵行其

程式設計師修煉之道（通俗版）——第七章

《程式設計師修煉之道》這本書中的內容挺不錯，裡面包含了很多精華，但一些句子很拗口，所以我就根據國人的閱讀習慣，在不改變原意的情況下對詞句稍加修改，標題中的“通俗版”就是這麼來的。 1、在討論使用者介面時，需求、政策和實現之間的區別會變得非常模糊。“系統必須能讓

程式碼簡潔之道（判斷篇）

第一個例子 if (state === 1) { return true } else if (state === 2) { return true } else if (state === 3) { return true } else if (state === 4){ r

深入理解Java虛擬機器JVM高階特性與最佳實踐閱讀總結—— 第十二章 Java記憶體模型與執行緒

Java記憶體模型JMM，主要目標是定義程式中各個變數的訪問規則，即在虛擬機器中將變數儲存到記憶體和從記憶體讀取變數的底層細節，這裡的變數不包括執行緒私有的變數，如區域性引數；記憶體模型規定所有變數儲存在主記憶體；每個執行緒都有自己的工作記憶體，其中儲存了該執行緒用到的變數

Ruby程式設計師修煉之道（第2版）.epub

【下載地址】這是一本深受好評的書。它不僅是一本純Ruby的書，也不僅是一本純Rails的書，而是一本為Rails程式設計師“優化”過的Ruby書。本書從Ruby程式語言的基礎開始一直講到動態特性，其中包含大量的真實程式碼示例並附有詳細的註解，對日常使用Ruby進行程

Spark修煉之道（高階篇）——Spark原始碼閱讀：第十二節 Spark SQL 處理流程分析

相關推薦