【Spark】Day03：Spark SQL：DataFrame、DataSet、sql操作、專案實戰（區域熱門商品）

阿新 • • 發佈：2021-11-20

一、概述

1、介紹

將Spark SQL轉換成RDD，然後提交到叢集執行，執行效率非常快

提供了2個程式設計抽象，類似Spark Core中的RDD：DataFrame&DataSet

2、特點

易整合SQL和spark

統一的資料訪問方式

相容hive

標準資料連線

3、DataFrame

以RDD為基礎的分散式資料集，類似於二維表格

帶有schema元資訊

支援巢狀型別

每一列都帶有名稱和型別

查詢計劃通過Spark catalyst optimiser進行優化，可以獲得比RDD更高的效能

利用基於關係代數的等價變換，將高成本的操作替換為低成本操作的過程

4、DataSet

分散式資料庫集合

表用row表示

二、Spark SQL程式設計

1、SparkSession查詢起始點

SparkSession是Spark最新的SQL查詢起始點

SparkSession內部封裝了sparkContext，計算實際上是由sparkContext完成

2、DataFrame

建立：資料來源、json、其他RDD

建立臨時表、SQL查詢並顯示

特定領域語言(domain-specific language, DSL)DSL風格語法顯示，無需建立臨時檢視

RDD與DF的轉換

3、DataSet

建立

轉換

4、DataFrame與DataSet的互操作

5、RDD、DataFrame和DataSet之間的關係

6、IDEA建立SparkSQL程式

7、使用者自定義函式

UAF UDAF UDTF

自定義累加器、聚合函式

三、SparkSQL資料的載入與儲存

1、通用的載入和儲存方式

spark.read.load 是載入資料的通用方法
df.write.save 是儲存資料的通用方法

2、JSON檔案

3、MySQL

從JDBC讀寫資料

4、Hive

內嵌hive

外部hive

四、SparkSQL專案實戰

1、準備資料

hive中建立表

1張使用者行為表，1張城市表，1 張產品表

2、需求：各區域熱門商品Top3

本文來自部落格園，作者：劉金輝，轉載請註明原文連結：https://www.cnblogs.com/liujinhui/p/15582566.html

【Spark】Day03：Spark SQL：DataFrame、DataSet、sql操作、專案實戰（區域熱門商品）

一、概述 1、介紹將Spark SQL轉換成RDD，然後提交到叢集執行，執行效率非常快提供了2個程式設計抽象，類似Spark Core中的RDD：DataFrame&DataSet

【貪心】B000_LC_避免重複字母的最小刪除成本 & 替換所有的問號（交換 | 雙指標）

給你一個字串 s 和一個整數陣列 cost ，其中 cost[i] 是從 s 中刪除字元 i 的代價。

【譯】微服務 vs API：微服務不僅僅是API

原文連結在開發軟體的時候，既要考慮程式碼的實現也要考慮架構。當以一種邏輯上有意義的方式進行開發的時候，開發會更為有效。除了架構，軟體也需要考慮使用者互動，以及介面。

【5】基於Python-基礎知識：環境搭建和模擬Get 和Post請求（1）

1. 環境搭建在實戰之前，我們需要先安裝python 並且匯入request庫(pip install requests)

【6】基於Python-基礎知識：Python上傳檔案/下載檔案（2）

舉例一：上傳圖片介面把對應的圖片上傳到對應的位置，以下介面牽扯的知識點：1. 得到對應的介面地址，包括：/account/uploadUserPic（生成圖片）和 /account/uploadAvatar（上傳圖片）2. 利用字典儲存得到對應的檔

【8】基於Python-基礎知識：flask的介紹及使用（4）

　　本節的知識只是擴充套件知識點，可自行學習學習目的：知道什麼是flask

【應用】Linux記憶體除錯工具：valgrind

執行環境：ubuntu-20.04 工具版本：valgrind-3.16.1 1、工具自我介紹： Valgrind is an instrumentation framework for building dynamic analysis tools. There are Valgrind tools that can automatically detect

【ES6+】004-ES6新特性：ES6中函式引數的預設值、rest引數、擴充套件運算子

技術標籤：Webjavascriptjses6 目錄一、ES6中函式引數的預設值 1、概述 2、程式碼示例及相關說明

【ES6+】002-ES6新特性：const 關鍵字、變數的解構賦值、模板字串

技術標籤：Web字串javascriptes6 目錄一、const 關鍵字 1、特性 2、const建立變數程式碼示例

【ES6+】009-ES7新特性：Array.prototype.includes、指數操作符

技術標籤：Webjavascriptes7 目錄一、功能概述二、Array.prototype.includes 概述：程式碼實現：

【ES6+】007-ES6新特性：Set集合、Map集合、class類

技術標籤：Webjsjavascript面向物件程式設計目錄一、Set集合 1、概述 2、基本使用

【Python】使用pdfkit報錯：OSError: wkhtmltopdf exited with non-zero code 1. error:

技術標籤：PythonpdfkitOSErrorwkhtmltopdfexited withnon-zero code 1 在工作自動化過程中，有時需要使用Python的pdfkit包將URL或者str等轉換成pdf檔案，今天使用如下程式碼在將str轉換為pdf時，程式碼如下：

【DA】SciPy的統計模組：scipy.stats

技術標籤：DAscipy SciPy的統計模組是scipy.stats，其中有一個類是連續分佈的實現，一個類是離散分佈的實現。此外，該模組中還有很多用於統計檢驗的函式。

【視訊】iQOO Neo5 上手體驗：獨立晶片插幀背刺遊戲手機！

Hello，大家好！我是的水水。昨天iQOO Neo5正式釋出，讓我沒想到的是，這臺看起來主打價效比的平凡手機，卻讓我體驗到前所未有的高幀率遊戲體驗，無論是我和如舟玩崩壞3、原神，還是馬卡最愛的使命召喚，都驚呼怎麼能

【Day04】Spring Cloud 昇華篇：容器化技術docker和kurbernetes

一、介紹 1、要考慮的問題微服務數量有很多中介軟體的部署-nacos-server sentinel-server

【筆記】9-第1課：POST的基礎知識 1 獲取網頁所有內容 2 點選讀取驗證碼 3取中間文字 4取中間批量

視訊教程學習地址https://www.bilibili.com/video/BV1hT4y1Z7ry/ 用的模組：精易模組 V2.52.ec

【轉】“八段錦”養生：通經絡，補氣血，簡單8個動作調理全身臟腑！

簡介 “在我國古老的導引術中，八段錦是流傳最廣，對導引術發展影響最大的一種”。

【轉載】ABP原始碼分析一：整體專案結構及目錄

ABP原始碼分析一：整體專案結構及目錄 ABP是一套非常優秀的web應用程式架構，適合用來搭建集中式架構的web應用程式。

【uwsgi】Mac下python dyld ：Library not loaded 問題解決

今天在Mac下使用uwsgi執行Python Flask的web程式時遇到了dyld: Library not loaded問題，記錄一下解決方法

【OSTEP】第27章-插敘：執行緒API

執行緒建立 #include <pthread.h> int pthread_create( pthread_t *thread, const pthread_attr_t *attr,

【Spark】Day03：Spark SQL：DataFrame、DataSet、sql操作、專案實戰（區域熱門商品）

相關推薦