Spark SQL應用

阿新 • • 發佈：2021-01-26

技術標籤：Spark spark 大資料 hdfs hadoop

Spark SQL應用

實驗目的

深入理解和掌握DataFrame各種常見操作和程式設計方法；掌握使用Spark SQL程式設計解決實際問題的方法。

實驗要求

掌握基於Maven的Scala和Spark SQL程式設計環境配置；
掌握DataFrame查詢方法。

實驗內容

將實驗二中的Online Retail.csv上傳至HDFS
在Maven中配置Spark SQL程式設計環境，pom.xml中新增：

<dependency>
	<groupId>org.apache.spark</groupId> 

    <artifactId>spark-sql_2.12</artifactId>
    <version>3.0.1</version>
</dependency>

若自己安裝的Spark不是3.0.1，則自己搜尋適合的spark-sql版本

編寫程式碼將csv檔案讀取至DataFrame，將Schema設定如下：
表1 Schema設定

Column Name	Type	Nullable
InvoiceNo	StringType	false
StockCode	StringType	false
Description	StringType	false 

Quantity	IntegerType	false
InvoiceDate	DateType	false
UnitPrice	DecimalType	false
CustomerID	StringType	false
Country	StringType	false

val conf = new SparkConf().setAppName(“Spark SQL”).setMaster(“local[*]”)
val sc = new SparkContext(conf)
val spark = SparkSession.builder().master(“local[*]”).appName( 
“Spark SQL”).getOrCreate()
val df = spark.read.format(“com.databricks.spark.csv”)
.option(“header”, “true”)
.option(“mode”, “DROPMALFORMED”)
.load(“hdfs://主機名或ip地址:埠號/檔案路徑”)
val df_null = df.na.drop()
val intRegx = “^\d+$”.r
val timeRegx = “^\d{1,2}/\d{1,2}/\d{4} \d{1,2}:\d{1,2}$”.r
val doubleRegx = “^\d+(\.\d+)?$”.r
val timeFormat = new SimpleDateFormat(“M/d/yyyy H:m”)
val rdd = df_null.rdd.map(x => (x.getString(0), x.getString(1), x.getString(2), x.getString(3), x.getString(4), x.getString(5), x.getString(6), x.getString(7)))
.filter(x => !intRegx.findFirstIn(x._4).isEmpty &&
!timeRegx.findFirstIn(x._5).isEmpty && //以日期規則過濾InvoiceDate列  
!doubleRegx.findFirstIn(x._6).isEmpty) //以浮點型規則過濾UnitPrice列  
.map(x => (x._1, x._2, x._3, x._4.toInt, new java.sql.Date(timeFormat.parse(x._5).getTime), x._6.toDouble, x._7, x._8))
val schema = StructType(Array(
StructField(“InvoiceNo”, StringType, false),
StructField(“StockCode”, StringType, false),
StructField(“Description”, StringType, false),
StructField(“Quantity”, IntegerType, false),
StructField(“InvoiceDate”, DateType, false),
StructField(“UnitPrice”, DoubleType, false),
StructField(“CustomerID”, StringType, false),
StructField(“Country”, StringType, false)
))
val df_final = spark.createDataFrame(rdd.map(x => Row.fromTuple(x)), schema)
df_final.write.json(“hdfs://主機名或ip地址:埠號/檔案路徑”)

在這裡插入圖片描述

(1) 要求：所有欄位不能為空，可將所有包含空值行或無法做資料型別轉換的行視為無效行去掉。

val rdd = df_null.rdd.map(x => (x.getString(0), x.getString(1), x.getString(2), x.getString(3), x.getString(4), x.getString(5), x.getString(6), x.getString(7)))
.filter(x => !intRegx.findFirstIn(x._4).isEmpty &&  
 !timeRegx.findFirstIn(x._5).isEmpty && //以日期規則過濾InvoiceDate列  
 !doubleRegx.findFirstIn(x._6).isEmpty) //以浮點型規則過濾UnitPrice列  
 .map(x => (x._1, x._2, x._3, x._4.toInt, new java.sql.Date(timeFormat.parse(x._5).getTime), x._6.toDouble, x._7, x._8))

(2) 讀取檔案方法：使用Spark SQL讀取csv的方法，直接按列讀取為DataFrame，然後再取RDD；或直接將csv以檔案的方式讀如RDD，然後以逗號將各列split為陣列，但注意欄位中本身包含逗號以及欄位兩端有雙引號的情況，可用正則表示式識別各列內容

(3) 資料轉換方法：使用RDD做資料轉換並去除空行，然後建立Schema，將RDD按建立的Schema轉為DataFrame

val df_final = spark.createDataFrame(rdd.map(x => Row.fromTuple(x)), schema)

在程式中將轉換好的DataFrame儲存為JSON
進入spark-shell
(1) 將第4步儲存的檔案載入到DataFrame

val df = spark.read.json("hdfs://主機名或ip地址:埠號/檔名")

(2) 執行DataFrame中的查詢（以下查詢分別用轉換操作運算元和SQL語句實現），並用show命令打印出摘要資訊
① 查詢單價小於0.2的所有商品
先建立一個檢視，用作sql語句的查詢

val table = df.createTempView("data")

Sql

spark.sql("select Description, UnitPrice from data where UnitPrice<0.2").show()

運算元

df.selectExpr("Description", "UnitPrice").where("UnitPrice<0.2").show() //單價小於0.2

在這裡插入圖片描述

② 查詢訂單551845～551850的顧客
Sql

spark.sql("select CustomerID, InvoiceNo from data where InvoiceNo>=55184 and InvoiceNo<=551850").show()

運算元

df.selectExpr("CustomerID", "InvoiceNo").where("InvoiceNo>=55184 and InvoiceNo<=551850").show() //查詢訂單551845～551850的顧客

在這裡插入圖片描述

③ 統計本資料中包含了多少個訂單
Sql

spark.sql("select count(distinct InvoiceNo) from data").show()

運算元

df.select(countDistinct("InvoiceNo")).show()

在這裡插入圖片描述

④ 統計所有訂單的最大金額、訂單包含的最多產品數量、訂單包含的最多產品種類
訂單最大金額
Sql

spark.sql("select sum(Quantity*UnitPrice) as sumPrice from data group by InvoiceNo order by sum(Quantity*UnitPrice) desc").show()

運算元

df.selectExpr("max(Quantity*UnitPrice)").show()

在這裡插入圖片描述

最多產品數量
Sql

spark.sql("select StockCode, max(Quantity) as maxNum from data group by StockCode order by max(Quantity) desc").show()

運算元

df.groupBy("StockCode").agg(sum("Quantity") as "maxNum").orderBy(desc("maxNum")).show()

在這裡插入圖片描述

最多產品總類
Sql

spark.sql("select StockCode, count(StockCode) from data group by StockCode order by count(StockCode) desc").show()

運算元

df.groupBy("StockCode").count().orderBy(desc("count")).show()

在這裡插入圖片描述

Spark SQL應用

技術標籤：Sparkspark大資料hdfshadoop Spark SQL應用實驗目的深入理解和掌握DataFrame各種常見操作和程式設計方法；掌握使用Spark SQL程式設計解決實際問題的方法。

位元組跳動在Spark SQL上的核心優化實踐 | 位元組跳動技術沙龍

10月26日，位元組跳動技術沙龍 | 大資料架構專場在上海位元組跳動總部圓滿結束。我們邀請到位元組跳動資料倉庫架構負責人-郭俊，Kyligence 大資料研發工程師-陶加濤，位元組跳動儲存工程師-徐明敏，阿里雲高階技術

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

一、Spark SQL簡介 Spark SQL 是 Spark 中的一個子模組，主要用於操作結構化資料。它具有以下特點：

Spark 系列（九）—— Spark SQL 之 Structured API

一、建立DataFrame和Dataset 1.1 建立DataFrame Spark 中所有功能的入口點是 SparkSession，可以使用 SparkSession.builder() 建立。建立後應用程式就可以從現有 RDD，Hive 表或 Spark 資料來源建立 DataFrame。示例

Spark 系列（十）—— Spark SQL 外部資料來源

一、簡介 1.1 多資料來源支援 Spark 支援以下六個核心資料來源，同時 Spark 社群還提供了多達上百種資料來源的讀取方式，能夠滿足絕大部分使用場景。

Spark 系列（十一）—— Spark SQL 聚合函式 Aggregations

一、簡單聚合 1.1 資料準備 // 需要匯入 spark sql 內建的函式包 import org.apache.spark.sql.functions._

Spark-SQL讀不到Hive資料庫的新坑指北

背景本文講的是spark-sql這個命令列工具讀取hive資料的情況： Spark是2.3.1，HDP發行版

Spark SQL常見4種資料來源詳解

通用load/write方法手動指定選項 Spark SQL的DataFrame介面支援多種資料來源的操作。一個DataFrame可以進行RDDs方式的操作，也可以被註冊為臨時表。把DataFrame註冊為臨時表之後，就可以對該DataFrame執行SQL查詢

Spark SQL操作JSON欄位的小技巧

前言介紹Spark SQL的JSON支援，這是我們在Databricks中開發的一個功能，可以在Spark中更容易查詢和建立JSON資料。隨著網路和移動應用程式的普及，JSON已經成為Web服務API以及長期儲存的常用的交換格式。使用現有的工

Spark入門（六）Spark SQL shell啟動方式(元資料儲存在mysql)

一、hive配置檔案在spak/conf目錄新增hive-site.xml配置，設定mysql作為元資料儲存的資料庫

Spark SQL 入門建立DataFrame報錯：org.apache.spark.sql.AnalysisException: Path does not exist: hdfs://local

Spark SQL 入門建立DataFrame 執行以下語句時 val df = spark.read.json(\"../examples/src/main/resources/people.json\")

DataFrame DataSet Spark SQL學習

RDD加上結構，比如說類名，就可以變成DataFrame,DataFrame，將每一類同這一類的類名繫結在一起就可以稱為DataSet.

【趙強老師】什麼是Spark SQL？

一、Spark SQL簡介 Spark SQL是Spark用來處理結構化資料的一個模組，它提供了一個程式設計抽象叫做DataFrame並且作為分散式SQL查詢引擎的作用。

Spark SQL : DataFrame repartition、coalesce 對比

repartition repartition 有三個過載的函式： 1) def repartition(numPartitions: Int): DataFrame /**

spark sql

1）dataframe和dataset dataframe和dataset是spark sql中的程式設計模型。他們兩個程式設計模型我們可以理解為一張mysql的二維表，表頭，表名，表字段，欄位型別，資料。RDD其實也可以理解二維表，但是RDD相較於data

Spark SQL Parser到Unresolved LogicPlan

Spark SQL Parser到Unresolved LogicPlan Spark SQL Parser簡單來說就是將sql語句解析成為運算元樹的過程，在這個過程中，spark sql採用了antrl4來完成。

Spark SQL(4)-Unresolved Plan到Analyzed Plan

Spark Sql(4)-Unresolved Plan到Analyzed Plan 在第三篇總結了Unresolved Plan的生成過程，在此之後就是將其轉換為Analyzed Plan。這這一步主要涉及到QueryExecution、Analyzer、catalog等。

Spark SQL(5) CacheManage

Spark SQL(5) CacheManage 在spark sql的analyzed plan 生成之後，會經過一步withCachedData的操作，其實就是根據對logicalplan的快取，如果logicalPlan的查詢結果相同則會替換相對應的節點。這步發生在QueryExecuti

Spark SQL(6) OptimizedPlan

Spark SQL(6) OptimizedPlan 在這一步spark sql主要應用一些規則，優化生成的Resolved Plan，這一步涉及到的有Optimizer。

Spark SQL(5-2) CacheManage之InMemoryRelation

Spark SQL(5-2) CacheManage之InMemoryRelation 本來計劃中是沒有這節的，但是中午在看spark sql 記憶體管理模組的時候，腦子裡面突然問到，spark sql 快取到記憶體的資料是怎麼組織的；上網查了下部落格；然後自己也

Spark SQL應用

Spark SQL應用

實驗目的

實驗要求

實驗內容

相關推薦