（補交）7.Spark SQL

阿新 • • 發佈：2022-06-06

1.請分析SparkSQL出現的原因，並簡述SparkSQL的起源與發展。

　　SparkSQL的出現，解決了對不同資料來源和不同資料的操作，例如結構化和非結構化資料。還有可以支援融合關係查詢和複雜分析演算法。

　　SparkSQL的前身是Shark，Shark中提供了類似於Hive的功能。但是Shark設計中導致了兩個問題，一是執行計劃優化完全依賴Hive，二是Spark是執行緒進行，而MapReduce是程序級並行，此此過程會導致執行緒安全問題。而轉向SparkSQL的開發。

2. 簡述RDD 和DataFrame的聯絡與區別？

RDD是分散式的Java物件的集合，但是，物件內部結構對於RDD而言是不可知的。DataFrame是一種以RDD為基礎的分散式資料集，提供了詳細的結構資訊，就相當於資料庫的一張表。

3.DataFrame的建立

spark.read.text(url)

spark.read.json(url)

注意從不同檔案型別生成DataFrame的區別。

text讀出來的是一個value值，json檔案讀的是一個實體物件

spark.read.format("text").load("people.txt")

spark.read.format("json").load("people.json")

4. PySpark-DataFrame各種常用操作

基於df的操作：

列印資料 df.show()預設列印前20條資料

列印概要 df.printSchema()

查詢總行數 df.count()

df.head(3) #list型別，list中每個元素是Row類

輸出全部行 df.collect() #list型別，list中每個元素是Row類

查詢概況 df.describe().show()

取列 df[‘name’], df.name, df[1]

基於spark.sql的操作：

建立臨時表虛擬表 df.registerTempTable('people')

spark.sql執行SQL語句 spark.sql('select name from people').show()

5. Pyspark中DataFrame與pandas中DataFrame

分別從檔案建立DataFrame

比較兩者的異同

DataFrame資料轉換成一行一行的資料。而pandas讀的資料會轉換成行列資料

pandas中DataFrame轉換為Pyspark中DataFrame

Pyspark中DataFrame轉換為pandas中DataFrame

6.從RDD轉換得到DataFrame

6.1 利用反射機制推斷RDD模式

建立RDD sc.textFile(url).map()，讀檔案，分割資料項

每個RDD元素轉換成 Row

由Row-RDD轉換到DataFrame

6.2 使用程式設計方式定義RDD模式

#下面生成“表頭”

#下面生成“表中的記錄”

#下面把“表頭”和“表中的記錄”拼裝在一起

7. DataFrame的儲存

df.write.text(dir)

df.write.format("text").save(dir)

df.write.json(dri)

df.write.format("json").save(dir)

（補交）7.Spark SQL

1.請分析SparkSQL出現的原因，並簡述SparkSQL的起源與發展。　　SparkSQL的出現，解決了對不同資料來源和不同資料的操作，例如結構化和非結構化資料。還有可以支援融合關係查詢和複雜分析演算法。

HBase 系列（十）—— HBase 的 SQL 中間層 Phoenix

一、Phoenix簡介 Phoenix 是 HBase 的開源 SQL 中間層，它允許你使用標準 JDBC 的方式來操作 HBase 上的資料。在 Phoenix 之前，如果你要訪問 HBase，只能呼叫它的 Java API，但相比於使用一行 SQL 就能實現資料查詢

Asp.net MVC（一） CentOS7安裝SQL Server

一、CentOS7安裝SQL Server 參考：https://docs.microsoft.com/zh-cn/sql/linux/quickstart-install-connect-red-hat?view=sql-server-ver15

PTA 資料結構與演算法題目集（中文） 7-3 樹的同構 (樹雜湊)

題目連結樹雜湊直接套就完了 1 #include<bits/stdc++.h> 2 using namespace std; 3 typedef unsigned long long ll;

轉-（二期）7、swagger2與postman

（二期）7、swagger2與postman 【課程七】swagge...tman.xmind0.3MB 【課程七預習】sw...tman.xmind31.3KB

雲幫（ACP）7月升級：重構負載均衡，優化後端元件功能

2019獨角獸企業重金招聘Python工程師標準>>> 雲幫（ACP）以應用為中的無伺服器PaaS——雲幫ACP基於容器技術研發，社群版針對個人、企業完全免費，您可以自由的下載與傳播。藉助它您可以實現：

MySQL的那些事兒（一）常用的SQL語句

SQL語句是對MySQL資料庫最基本的操作手段。整理一下常用的SQL語句（包含一些終端命令）。

Flink實戰（110）：flink-sql使用（十八）connector（十九）Flink Hive Connector 使用

來源：https://www.yuque.com/docs/share/14a7a0e8-37d1-4142-8962-48dcf3761f7e?# Flink 1.12 版本 1. Hive 建表

Flink實戰（111）：flink-sql使用（十九）Flink 與 hive 結合使用（八）Hive Streaming 實戰解析

Flink 1.11 正式釋出已經三週了，其中最吸引我的特性就是 Hive Streaming。正巧 Zeppelin-0.9-preview2 也在前不久釋出了，所以就寫了一篇 Zeppelin 上的 Flink Hive Streaming 的實戰解析。本文主要從以下幾部分跟

HIVE（二）Hive基本SQL操作

一：Hive DDL 1. 資料庫的基本操作 1.1 檢視資料庫列表 show databases; 1.2 使用資料庫 use databse_name;

【轉】2.1【MySQL】執行原理（一）：查詢sql的執行過程及MySQL架構分析

MySQL的發展歷史和版本分支：時間里程碑1996 年MySQL1.0 釋出。它的歷史可以追溯到 1979 年，作者 Monty 用 BASIC 設計的一個報表工具。1996 年 10 月3.11.1 釋出。MySQL 沒有 2.x 版本。2000 年ISAM 升級成 My

Flink實戰（七十七）：flink-sql使用（五）分離的 SQL 查詢、SQL 檢視、臨時表（Temporal Table）

技術標籤：Flink入門宣告：本系列部落格是根據SGG的視訊整理而成，非常適合大家入門學習。

SQL 基礎知識梳理（一）- 資料庫與 SQL(轉)

目錄 What\'s 資料庫資料庫結構 SQL 概要建立資料庫與表刪除和更新表一、What\'s 資料庫

SQL 基礎知識梳理（一）- 資料庫與 SQL

目錄 What\'s 資料庫資料庫結構 SQL 概要建立資料庫與表刪除和更新表一、What\'s 資料庫

（糾錯）7-7 通訊錄的錄入與顯示

自己的測試案例過了，但是無法AC 自己的程式碼不能AC 1 #include <stdio.h> 2 struct Friends

Sql Server（4）報表，SQL profiler,維護計劃

一：報表 Management Studio提供的各式報表可用於管理檢視平均/總 IO,cpu執行SQL語句情況阻塞程序情況物件執行資訊批處理執行資訊

Flink基礎（61）：FLINK SQL(38) 視窗函式（2）滾動視窗

本文為您介紹如何使用實時計算Flink版滾動視窗函式。 1 定義滾動視窗（TUMBLE）將每個元素分配到一個指定大小的視窗中。通常，滾動視窗有一個固定的大小，並且不會出現重疊。例如，如果指定了一個5分鐘大小的滾動視

Flink基礎（62）：FLINK SQL(39) 視窗函式（3）滑動視窗

本文為您介紹如何使用實時計算滑動視窗函式。說明實時計算滑動視窗（HOP）暫不支援與LAST_VALUE、FIRST_VALUE或TopN函式共同使用。

Flink基礎（63）：FLINK SQL(40) 視窗函式（4）會話視窗

本文為您介紹如何使用實時計算Flink版會話視窗函式。什麼是會話視窗會話視窗（SESSION）通過SESSION活動來對元素進行分組。會話視窗與滾動視窗和滑動視窗相比，沒有視窗重疊，沒有固定視窗大小。相反，當它在一個

Flink基礎（64）：FLINK SQL(41) 視窗函式（5）OVER視窗

OVER視窗（OVER Window）是傳統資料庫的標準開窗，不同於Group By Window，OVER視窗中每1個元素都對應1個視窗。OVER視窗可以按照實際元素的行或實際的元素值（時間戳值）確定視窗，因此流資料元素可能分佈在多個視

（補交）7.Spark SQL

相關推薦