[Spark SQL01]Spark SQL入門

阿新 • • 發佈：2019-02-08

1、SQL結合spark有兩條線：

Spark SQL和Hive on Spark（還在開發狀態，不穩定，暫時不建議使用）。

#Hive on Spark是在Hive中的，使用Spark作為hive的執行引擎，只需要在hive中修改一個引數即可：

# set hive.execution.engine=spark

2、Spark SQL

a.概述：

Spark SQL是Spark處理資料的一個模組，跟基本的Spark RDD的API不同，Spark SQL中提供的介面將會提供給Spark更多關於結構化資料和計算的資訊。其本質是，Spark SQL使用這些額外的資訊去執行額外的優化，這兒有幾種和Spark SQL進行互動的方法，包括SQL和Dataset API

，當使用相同的執行引擎時，API或其它語言對於計算的表達都是相互獨立的，這種統一意味著開發人員可以輕鬆地在不同的API之間進行切換。

b.SQL:

Spark SQL的一大用處就是執行SQL查詢語句，Spark SQL也可以用來從Hive中讀取資料，當我們使用其它程式語言來執行一個SQL語句，結果返回的是一個Dataset或者DataFrame.你可以使用命令列，JDBC或者ODBC的方式來與SQL進行互動。

c.Dataset和DataFrame

Dataset是一個分散式資料集合。Dataset是一個在Spark 1.6版本之後才引入的新介面，它既擁有了RDD的優點（強型別、能夠使用強大的lambda函式），又擁有Spark SQL的優點（用來一個經過優化的執行引擎）。你可以將一個JVM物件構造成一個Dataset

,之後就可以使用一些transformations操作啦。我們可以使用scala,java來訪問Dataset API,不支援python哦，當然，由於python的動態特性，很多的Dataset API是可以使用的，R語言也是一樣哦。

DataFrame是Dataset中一個有名字的列。從概念上，它等價於關係型資料庫中的一張表，或者等價於R/Python中的Data Frame，但它在底層做了更好的優化。構造DataFrame的資料來源很多：結構化的資料檔案、hive表、外部資料庫、已經存在的RDD。DataFrame 的API支援java,scal.python,R。

3、面試題

RDD VS DataFrame

esgd

a.基於RDD的程式設計，不同語言效能是不一樣的，而DataFrame是一樣的，因為底層會有一個優化器先將程式碼進行優化。

b.對於RDD，暴露給執行引擎的資訊只有資料的型別，如RDD[Student]裝的是Student,而對於DataFrame,對於外部可見的資訊有欄位型別，欄位key,欄位value等。

c.RDD是一個數組，DataFrame是一個列式表。

4、Spark SQL願景

a.寫更少的程式碼

b.讀更少的資料（壓縮，儲存格式，列裁剪）

c.對於不同語言的應用程式讓優化器自動進行優化

5、Spark SQL架構

客戶端->未解析的邏輯執行計劃（Schema Catalog 將schema作用在資料上）->邏輯執行計劃->優化過後的邏輯執行計劃->物理執行計劃->Spark引擎。

#Spark SQL 要使用hive中的表，需要將hive-site.xml加入spark的配置檔案目錄。

6、執行計劃（Hive 或Spark SQL）

explain extended +查詢語句

7、SparkSession

新增依賴：

<groupId>org.spark.apache</groupId>

<artifactId>spark-sql_2.11</artifactId> ##2.11位scala版本

<version>${spark.version}</version>

</dependency>

Spark中所有功能的入口點是SparkSession類,我們可以使用SparkSession.builder()來建立一個SparkSession，具體如下（scala）:

import org.apache.spark.sql.SparkSession

val spark = SparkSession
  .builder()
  .appName("Spark SQL basic example")
  .config("spark.some.config.option", "some-value")
  .getOrCreate()

// For implicit conversions like converting RDDs to DataFrames
import spark.implicits._