Spark 系列（九）—— Spark SQL 之 Structured API

一、建立DataFrame和Dataset

1.1 建立DataFrame

Spark 中所有功能的入口點是 SparkSession，可以使用 SparkSession.builder() 建立。建立後應用程式就可以從現有 RDD，Hive 表或 Spark 資料來源建立 DataFrame。示例如下：

val spark = SparkSession.builder().appName("Spark-SQL").master("local[2]").getOrCreate()
val df = spark.read.json("/usr/file/json/emp.json")
df.show()

// 建議在進行 spark SQL 程式設計前匯入下面的隱式轉換，因為 DataFrames 和 dataSets 中很多操作都依賴了隱式轉換
import spark.implicits._

可以使用 spark-shell 進行測試，需要注意的是 spark-shell 啟動後會自動建立一個名為 spark 的 SparkSession，在命令列中可以直接引用即可：

1.2 建立Dataset

Spark 支援由內部資料集和外部資料集來建立 DataSet，其建立方式分別如下：

1. 由外部資料集建立

// 1.需要匯入隱式轉換
import spark.implicits._

// 2.建立 case class,等價於 Java Bean
case class Emp(ename: String, comm: Double, deptno: Long, empno: Long, 
               hiredate: String, job: String, mgr: Long, sal: Double)

// 3.由外部資料集建立 Datasets
val ds = spark.read.json("/usr/file/emp.json").as[Emp]
ds.show()

2. 由內部資料集建立

// 1.需要匯入隱式轉換
import spark.implicits._

// 2.建立 case class,等價於 Java Bean
case class Emp(ename: String, comm: Double, deptno: Long, empno: Long, 
               hiredate: String, job: String, mgr: Long, sal: Double)

// 3.由內部資料集建立 Datasets
val caseClassDS = Seq(Emp("ALLEN", 300.0, 30, 7499, "1981-02-20 00:00:00", "SALESMAN", 7698, 1600.0),
                      Emp("JONES", 300.0, 30, 7499, "1981-02-20 00:00:00", "SALESMAN", 7698, 1600.0))
                    .toDS()
caseClassDS.show()

1.3 由RDD建立DataFrame

Spark 支援兩種方式把 RDD 轉換為 DataFrame，分別是使用反射推斷和指定 Schema 轉換：

1. 使用反射推斷

// 1.匯入隱式轉換
import spark.implicits._

// 2.建立部門類
case class Dept(deptno: Long, dname: String, loc: String)

// 3.建立 RDD 並轉換為 dataSet
val rddToDS = spark.sparkContext
  .textFile("/usr/file/dept.txt")
  .map(_.split("\t"))
  .map(line => Dept(line(0).trim.toLong, line(1), line(2)))
  .toDS()  // 如果呼叫 toDF() 則轉換為 dataFrame

2. 以程式設計方式指定Schema

import org.apache.spark.sql.Row
import org.apache.spark.sql.types._


// 1.定義每個列的列型別
val fields = Array(StructField("deptno", LongType, nullable = true),
                   StructField("dname", StringType, nullable = true),
                   StructField("loc", StringType, nullable = true))

// 2.建立 schema
val schema = StructType(fields)

// 3.建立 RDD
val deptRDD = spark.sparkContext.textFile("/usr/file/dept.txt")
val rowRDD = deptRDD.map(_.split("\t")).map(line => Row(line(0).toLong, line(1), line(2)))


// 4.將 RDD 轉換為 dataFrame
val deptDF = spark.createDataFrame(rowRDD, schema)
deptDF.show()

1.4 DataFrames與Datasets互相轉換

Spark 提供了非常簡單的轉換方法用於 DataFrame 與 Dataset 間的互相轉換，示例如下：

# DataFrames轉Datasets
scala> df.as[Emp]
res1: org.apache.spark.sql.Dataset[Emp] = [COMM: double, DEPTNO: bigint ... 6 more fields]

# Datasets轉DataFrames
scala> ds.toDF()
res2: org.apache.spark.sql.DataFrame = [COMM: double, DEPTNO: bigint ... 6 more fields]

二、Columns列操作

2.1 引用列

Spark 支援多種方法來構造和引用列，最簡單的是使用 col() 或 column() 函式。

col("colName")
column("colName")

// 對於 Scala 語言而言，還可以使用$"myColumn"和'myColumn 這兩種語法糖進行引用。
df.select($"ename", $"job").show()
df.select('ename, 'job).show()

2.2 新增列

// 基於已有列值新增列
df.withColumn("upSal",$"sal"+1000)
// 基於固定值新增列
df.withColumn("intCol",lit(1000))

2.3 刪除列

// 支援刪除多個列
df.drop("comm","job").show()

2.4 重新命名列

df.withColumnRenamed("comm", "common").show()

需要說明的是新增，刪除，重新命名列都會產生新的 DataFrame，原來的 DataFrame 不會被改變。

三、使用Structured API進行基本查詢

// 1.查詢員工姓名及工作
df.select($"ename", $"job").show()

// 2.filter 查詢工資大於 2000 的員工資訊
df.filter($"sal" > 2000).show()

// 3.orderBy 按照部門編號降序，工資升序進行查詢
df.orderBy(desc("deptno"), asc("sal")).show()

// 4.limit 查詢工資最高的 3 名員工的資訊
df.orderBy(desc("sal")).limit(3).show()

// 5.distinct 查詢所有部門編號
df.select("deptno").distinct().show()

// 6.groupBy 分組統計部門人數
df.groupBy("deptno").count().show()

四、使用Spark SQL進行基本查詢

4.1 Spark SQL基本使用

// 1.首先需要將 DataFrame 註冊為臨時檢視
df.createOrReplaceTempView("emp")

// 2.查詢員工姓名及工作
spark.sql("SELECT ename,job FROM emp").show()

// 3.查詢工資大於 2000 的員工資訊
spark.sql("SELECT * FROM emp where sal > 2000").show()

// 4.orderBy 按照部門編號降序，工資升序進行查詢
spark.sql("SELECT * FROM emp ORDER BY deptno DESC,sal ASC").show()

// 5.limit  查詢工資最高的 3 名員工的資訊
spark.sql("SELECT * FROM emp ORDER BY sal DESC LIMIT 3").show()

// 6.distinct 查詢所有部門編號
spark.sql("SELECT DISTINCT(deptno) FROM emp").show()

// 7.分組統計部門人數
spark.sql("SELECT deptno,count(ename) FROM emp group by deptno").show()

4.2 全域性臨時檢視

上面使用 createOrReplaceTempView 建立的是會話臨時檢視，它的生命週期僅限於會話範圍，會隨會話的結束而結束。

你也可以使用 createGlobalTempView 建立全域性臨時檢視，全域性臨時檢視可以在所有會話之間共享，並直到整個 Spark 應用程式終止後才會消失。全域性臨時檢視被定義在內建的 global_temp 資料庫下，需要使用限定名稱進行引用，如 SELECT * FROM global_temp.view1。

// 註冊為全域性臨時檢視
df.createGlobalTempView("gemp")

// 使用限定名稱進行引用
spark.sql("SELECT ename,job FROM global_temp.gemp").show()

參考資料

Spark SQL, DataFrames and Datasets Guide > Getting Started

更多大資料系列文章可以參見 GitHub 開源專案：大資料入門指南

相關推薦

Spark 系列（九）—— Spark SQL 之 Structured API

一、建立DataFrame和Dataset 1.1 建立DataFrame Spark 中所有功能的入口點是 SparkSession，可以使用 SparkSession.builder() 建立。建立後應用程式就可以從現有 RDD，Hive 表或 Spark 資料來源建立 DataFrame。示例如下： v

Spark原始碼系列（九）Spark SQL初體驗之解析過程詳解

首先宣告一下這個版本的程式碼是1.1的，之前講的都是1.0的。 Spark支援兩種模式，一種是在spark裡面直接寫sql，可以通過sql來查詢物件，類似.net的LINQ一樣，另外一種支援hive的HQL。不管是哪種方式，下面提到的步驟都會有，不同的是具體的執行過程。下面

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

## 一、Spark SQL簡介 Spark SQL 是 Spark 中的一個子模組，主要用於操作結構化資料。它具有以下特點： + 能夠將 SQL 查詢與 Spark 程式無縫混合，允許您使用 SQL 或 DataFrame API 對結構化資料進行查詢； + 支援多種開發語言； + 支援

Spark 系列（十）—— Spark SQL 外部資料來源

一、簡介 1.1 多資料來源支援 Spark 支援以下六個核心資料來源，同時 Spark 社群還提供了多達上百種資料來源的讀取方式，能夠滿足絕大部分使用場景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注：以下所有測試檔案均可

Spark 系列（五）—— Spark 執行模式與作業提交

一、作業提交 1.1 spark-submit Spark 所有模式均使用 spark-submit 命令提交作業，其格式如下： ./bin/spark-submit \ --class <main-class> \ # 應用程式主入口類 --master <maste

Quartz.Net系列（九）：Trigger之DailyTimeIntervalScheduleBuilder詳解

1.介紹中文意義就是每日時間間隔計劃生成 2.API講解 (1)WithInterval、WithIntervalInHours、WithIntervalInMinutes、WithIntervalInSeconds WithInterval：指定要生成觸發器的時間單位和間隔。 WithIntervalIn

深入淺出Mybatis系列（九）---強大的動態SQL

tool 復制代碼 otherwise strong sql語句 src sep des col 　　傳統的使用JDBC的方法，相信大家在組合復雜的的SQL語句的時候，需要去拼接，稍不註意哪怕少了個空格，都會導致錯誤。Mybatis的動態SQL功能正是為了解決這種問題

ASP.NET SignalR 系列（九）之源碼與總結

pan ie7 集線器增加地址註意 ocs pac mic 1、SignalR 1.0與2.0有些不同，以上篇章均只支持2.0+ 2、必須註意客戶端調用服務端對象和方法時的大小寫問題 3、客戶端上的方法不能重名 4、IE7及以下的，需要增加json的分析器，分析器下載

Spark採坑系列（三）Spark操作Hive的坑

跟著教學試著用Idea程式設計，實現Spark查詢Hive中的表。結果上來就涼了。搗鼓好久都不行，在網上查有說將hive-site.xml放到resource目錄就行，還有什麼hadoop針對windows使用者的許可權問題，結果都是扯淡。其實問題還是處在程式碼上，直接附上程式碼了

Spark學習（柒）- Spark SQL擴充套件和總結

文章目錄 Spark SQL使用場景 Spark SQL載入資料 1) RDD DataFrame/Dataset 2) Local Cloud(HDFS/S3) DataFrame與SQL的對比

大資料乾貨系列（六）--Spark總結

Spark總結一、本質 Spark是一個分散式的計算框架，是下一代的MapReduce，擴充套件了MR的資料處理流程二、mapreduce有什麼問題1.排程慢，啟動map、reduce太耗時2.計算慢，每一步都要儲存中間結果落磁碟3.API抽象簡單，只有map和reduce兩

spark記錄（3）spark算子之Transformation

ace 使用 ble pan 寫入 1.2 插入 get .text 一、map、flatMap、mapParations、mapPartitionsWithIndex 1.1　map map十分容易理解，他是將源JavaRDD的一個一個元素的傳入call方法，並經過算

spark記錄（4）spark算子之Action

lac atm ide replace action ret 加載再次 col Action類算子也是一類算子（函數）叫做行動算子，如foreach,collect，count等。Transformations類算子是延遲執行，Action類算子是觸發執行。一個appli

Spark 系列（三）—— 彈性式資料集RDDs

一、RDD簡介 RDD 全稱為 Resilient Distributed Datasets，是 Spark 最基本的資料抽象，它是隻讀的、分割槽記錄的集合，支援並行操作，可以由外部資料集或其他 RDD 轉換而來，它具有以下特性：一個 RDD 由一個或者多個分割槽（Partitions）組成。對於 RDD

Spark 系列（四）—— RDD常用運算元詳解

一、Transformation spark 常用的 Transformation 運算元如下表： Transformation 運算元 Meaning（含義） map(func) 對原 RDD 中每個元素運用 func 函式，並生成新的 RDD filter(func) 對原 RDD 中每

Spark 系列（七）—— 基於 ZooKeeper 搭建 Spark 高可用叢集

一、叢集規劃這裡搭建一個 3 節點的 Spark 叢集，其中三臺主機上均部署 Worker 服務。同時為了保證高可用，除了在 hadoop001 上部署主 Master 服務外，還在 hadoop002 和 hadoop003 上分別部署備用的 Master 服務，Master 服務由 Zookeeper

Hadoop（九）Hadoop IO之Compression和Codecs

需要本地文件 .get 擴展 ecs zip 客戶網絡 color 前言　　前面一篇介紹了Java怎麽去查看數據塊的相關信息和怎麽去查看文件系統。我們只要知道怎麽去查看就行了！接下來我分享的是Hadoop的I/O操作。　　在Hadoop中為什麽要去使用壓縮（Co

javascript預覽圖片——IT輪子系列（九）

webkit 分享圖片解決 web name javascrip 問題預覽上傳再使用htm控件 <input type="file" name="file" /> 上傳圖片的時候，往往需要先預覽圖片，然後點擊保存按鈕，把圖片上傳到服務器。今天正好解決

Hive學習之路（六）Hive SQL之數據類型和存儲格式

OS big api 而且好的存儲 array 文本文件字符串一、數據類型 1、基本數據類型 Hive 支持關系型數據中大多數基本數據類型類型描述示例 boolean true/false TRUE tinyint 1字

Java Thread系列（九）Master-Worker模式

線程支持需要列表 deque 開啟 exc oid src Java Thread系列（九）Master-Worker模式 Master-Worker模式是常用的並行設計模式. 一、Master-Worker 模式核心思想 Master-Worker 系統由兩個角