Spark-SQL學習筆記_總結和拓展

阿新 • • 發佈：2018-12-12

一、Spark-SQL應用場景

1.資料檔案即席查詢 Ad-hoc

普通查詢:定製化查詢

2.對流資料檔案採用SQL分析 Spark-Streaming+Spark-SQL

3.使用SQL完成ETL開發

1> 格式轉換 ==>列式儲存 parquet/json==>parquet

2> 日誌資料清洗,把日誌一部分內容抽取出來做分析統計

2.1> 新增欄位 ip=>城市

2.2> 日期欄位轉換成分割槽欄位

2.3> 剔除不需要欄位

4.與外部資料來源做互動查詢操作外部資料來源API！！！

傳統:通過sqoop把資料抽取到資料平臺上去

然後註冊成Hive表，進行統計分析

進階:Spark-SQL

把外部資料來源中的表註冊成DataFrame

通過DataFrame API進行統計分析

5.叢集查詢效能拓展

spark on yarn 開發

spark local模式測試

二、載入資料

1.直接載入到dataframe/dataset

2.載入到RDD進行轉換

3.從本地或雲端(HDFS/S3)載入資料

1>將資料載入成RDD

val masterLog = sc.textFile("file://")

val workerLog = sc.textFile("file://

val allLog=sc.textFile("file://*out*")

masterLog.count

masterLog.collect

masterLog.collect.foreach(println)

workerLog.count

allLog.count

問題：使用SQL進行查詢？

2>RDD==>DataFrame(DataFrame程式設計)

import org.apache.spark.sql.Row

val masterRDD = masterLog.map(x => Row(x))

import org.apache.spark.sql.types._

val schemaString = "line"

val fields = schemaString.split(" ").map(fieldName => StructField(fieldName, StringType, nullable = true))

val schema = StructType(fields)

val masterDF = spark.createDataFrame(masterRDD, schema)

masterDF.show(false)

masterDF.printSchema

3>RDD==>DataFrame(sql方式)

masterDF.createOrReplaceTempView(master_logs)

spark.sql("select * from master_logs limit 10").show(false)

三、外部資料來源 (json/parquet)

DataFrame程式設計

val usersDF=spark.read.format("parquet").load("file://users.parquet")

DataFrame sql

spark.sql("").show(false)

spark.sql("select * from parquet.``")

Drill 大資料處理框架

四、從雲端讀取資料(HDFS/s3a/s3n)

val hdfsRDD=sc.textFile("hdfs://path/file")

val s3RDD=sc.textFile("s3a://bucket/object")

spark.read.format("text").load("")

五、DataFrame vs SQL

1> DataFrame=RDD+schema

2> dataset in Row =DataFrame

3> DataFrame over rdd=Catalyst優化+schema

4> DataFrame text json parquet ...

5> DataFrame=SQLAPI +DataFrame API (Catalyst優化)

六、schema

inferred 隱式顯示

資料倉庫開發：

1> spark操作hive

2> 列式儲存

3>自動推導無需指定schema資訊

七、Save Results

SavaMode(Spark官網)

Spark預設snappy壓縮格式-parquet

1> ErrorIfExists

2> Append

3> Ignore

4> Overwrite

val df=spark.read.format("json").

load("file://people.json")

df.show

df.select("name").write.format("parquet")

.mode("overwrite").save("file:///home/hadoop/data/overwrite")

spark.read.format("parquet").load("file:///home/hadoop/data/overwrite")

八、處理json資料

支援schema資訊自動推導

val json

=spark.read.format("json").load("file://test.json")

json.show

json.createOrReplaceTempView("json_table")

spark.sql("select * from json_table").show

spark.sql("select name,nums[1] from json_table").show

spark.sql("select name,explode(nums)from json_table").show

spark.sql("select name,address.city,address.state from json_table2").show

九、Spark-SQL中SQL覆蓋度

1> 1.6(支援SQL一半)

不支援TPC-DS

2> 2.0(支援SQL2003,支援TPC—DS)

支援子查詢

支援向量化一次讀1024行

外部資料來源

rdbms JDBC jars

parquet Phoenix csv avro

十、補充

JDBC資料來源API原始碼解析

1> abstract class BaseRelation

定義schema資訊

2> trait RelationProvider

建立BaseRelation

Scan Scan==>RDD-Row

val df =spark.read.format("").option("path","file:///").load()

Spark-SQL學習筆記_總結和拓展

一、Spark-SQL應用場景 1.資料檔案即席查詢 Ad-hoc 普通查詢:定製化查詢 2.對流資料檔案採用SQL分析 Spark-Streaming+Spark-SQL 3.使用SQL完成ETL開發

Docker 學習筆記_安裝和使用MongoDB

虛擬機 http .com 端口映射學習筆記 alt 存儲鏡像 mage 一、準備 1、宿主機OS:Win10 64 2、虛擬機OS：Ubuntu18.04 3、賬號：docker 二、安裝 1、搜索MongoDB鏡像

Docker學習筆記_安裝和使用Zookeeper

ash http rest zook info run 4.4 win png 一、準備　　1、宿主機OS：Win10 64位 2、虛擬機OS：Ubuntu18.04 3、賬號：docker 二、安裝 1、搜索鏡像

.Net基礎篇_學習筆記_第四天_關系運算符和邏輯運算符

不能 main 運算 ram true con 是否 names 關系 1.關系運算符包含：> < <= >= == != 以及bool類型中的true和false。 2.邏輯運算符與 &

ROS學習筆記_編寫客戶端和服務器(service and client)_C++（五）

ber bsp 客戶端 service ++ 參考 subscribe 編寫 client 註意要區分service、client和publisher、subscriber這兩組概念的區別。先占坑。。。參考鏈接：Writing a Simple Serv

學習筆記之ACCESS和MS-SQL數據庫與ZBLOG系統如何選擇搭配？

站點通過如何建議轉換但是 net 們的 zblog 我開始接觸ZBLOG系統是因為先了解了月光博客和盧松松之後，因為他們的博客很強悍，讓我學習到了不少知識，因此也開始建站了，那時候由於是早期，數據量一般都小，而且系統也都不成熟，因此只有ACCESS這樣的小型數據庫

第67課：Spark SQL下采用Java和Scala實現Join的案例綜合實戰（鞏固前面學習的Spark SQL知識）

內容： 1.SparkSQL案例分析 2.SparkSQL下采用Java和Scala實現案例一、SparkSQL下采用Java和Scala實現案例學生成績： {"name":"Michael","score":98} {"name":"Andy"

spark-streaming學習筆記總結

基本介紹 Spark建立流式應用的本質，還是依賴了spark最核心的那些技術，只是在這些技術上又封裝了一層流式介面。 Spark的streaming機制簡單來說，就是將連續的時間序列切割成不同的離散時間段。針對某個時間段，將該時間段內的所有輸入資料組成一個RDD，接下來的工

【SQL Server學習筆記】表和列增加註釋

給表和列增加註釋，通過增加擴充套件屬性來實現程式碼如下: create table ttt (id int not null primary key, v varchar(100) )

spark機器學習筆記：（二）用Spark Python進行資料處理和特徵提取

下面用“|”字元來分隔各行資料。這將生成一個RDD,其中每一個記錄對應一個Python列表,各列表由使用者ID(user ID)、年齡(age)、性別(gender)、職業(occupation)和郵編(ZIP code)五個屬性構成。4之後再統計使用者、性別、職業和郵編的數目。這可通過如下程式碼

Spark 2.0 -SQL 學習筆記

概述 Spark SQL是Spark結構化資料處理模組，不同於基本的Spark RDD API，Spark SQL提供了更多資料結構和計算功能，並使用了這些豐富的資訊進行了額外的優化。可以通過SQL和DataSet API和Spark SQL互動。

protocol學習筆記001---RPC和HTTP協議之間的區別_與各自優勢

很長時間以來都沒有怎麼好好搞清楚RPC（即Remote Procedure Call，遠端過程呼叫）和HTTP呼叫的區別，不都是寫一個服務然後在客戶端呼叫麼？這裡請允許我迷之一笑~Naive！本文簡單地介紹一下兩種形式的C/S架構，先說一下他們最本質的區別，就是RPC主要是基

SQL必知必會學習筆記大總結

MySQL中，建立儲存過程的基本形式如下： CREATE PROCEDURE sp_name ([proc_parameter[,...]]) [characteristic ...] routine_body 其中，sp_name引數是儲存過程的名稱；proc_parameter表

Python學習筆記_獲取當前目錄和上級目錄

com 目標 info path 目錄 pre dirname spa *** 實驗目標：獲取當前目錄和上級目錄系統環境： 1、OS：Win10 64位 2、Pythoh 3.7 3、實驗路徑：C:\Work\Python\MergeEx

js-ES6學習筆記-Set結構和Map結構

基本類實例記錄 lba post 而且同名方法 zha http://www.cnblogs.com/lonhon/ 1、ES6 提供了新的數據結構 Set。它類似於數組，但是成員的值都是唯一的，沒有重復的值。 Set 本身是一個構造函數，用來生成 Set 數

【JAVAWEB學習筆記】23_Listener和郵箱服務器

添加 .get 接收監聽 lin 感知一個 rate 包括監聽器Listener 學習目標案例-使用監聽器完成定時生日祝福一、監聽器Listener javaEE包括13門規範在課程中主要學習 servlet技術和 jsp技術其中

Shader學習筆記_基礎知識_分量

spa 例如 string 不知道坐標 nbsp pre 表示設置分量矢量的分量名稱：{x,y,z,w}表示頂點； {r,g,b,a}表示顏色；{s,t,p,q}表示紋理坐標。每個分量用點號連接（例如v2.x（一個float變量），v3.rg(一個vec2變量)）

ThinkPHP5學習筆記(6)請求和響應

thinkphp在線視頻課程：http://www.kancloud.cn/tpshop/thinkphp5/220692Request請求對象和Response響應對象$_GET、$_POST、$_REQUEST、$_COOKIE調用請求對象$request=Request::instance()$this

NLTK學習筆記(五):分類和標註詞匯

推廣默認註意 max() 上下 efault val 存儲 n-n [TOC] 詞性標註器之後的很多工作都需要標註完的詞匯。nltk自帶英文標註器pos_tag import nltk text = nltk.word_tokenize("And now for

機器學習筆記 1 LMS和梯度下降（批梯度下降） 20170617

temp eas 理解 import 樣本 alt mes show 超過 # 概念 LMS(least mean square)：（最小均方法）通過最小化均方誤差來求最佳參數的方法。 GD(gradient descent) : （梯度下降法）一種參數更新法則。可以作為L

Spark-SQL學習筆記_總結和拓展

相關推薦