Spark專案學習-慕課網日誌分析-days2-Spark SQL

阿新 • • 發佈：2018-12-12

1.Spark SQL 概述

（1）為什麼需要SQL

1）事實上的標準

2）簡單易學

Hive：類似於sql的Hive QL語言 sql==>mapreduce

特點：基於mapreduce

改進：基於tez spark

Spark：分散式的基於記憶體的計算框架

hive on spark ==> shark（hive on spark）

優點：基於spark、基於記憶體的列式儲存、與hive能夠相容

缺點：hive ql的解析、邏輯執行計劃生成、執行計劃的優化是依賴於hive的，僅僅只是把物理執行計劃從mapreduce作業變成了spark作業

2.SQL on Hadoop常用框架

（1）Hive

1）sql==>mapreduce

2）metastore：元資料

3）sql:database、table、view

4）由facebook開源

（2）impala

1）cloudera公司：cdh（建議在生產上使用的hadoop系列版本）、cm（具有圖形介面）

2）sql：自己的守護程序執行的，非mr，基於記憶體的

3）metastore：元資料

（3）presto

1）facebook開源，京東用的很多

（4）drill

1）sql

2）訪問hdfs rdbms json hbase mangodb s3 hive

（5）Spark SQL

1）sql

2）dataframe dataset api

3）hdfs rdbms json hbase mangodb s3 hive 外部資料來源

3.Spark SQL概述（處理結構化資料）

1）不僅僅有訪問或者操作SQL的功能，還提供了其他的非常豐富的操作：外部資料來源，優化

2）能夠訪問hive jison parquet等檔案的資料

3）SQL只是Spark SQL的一個功能

4）Spark SQL提供了SQL的API DataFrame和Dataset的API

4. hive to spark SQL

1.SQLContext/HiveContext/SparkSession的使用

（1）SQLContext 在Spark1.0中使用

（2）HiveContext 在Spark1.0中使用

1）to use a HiveContext,you do not need to have an hive setup

（3）SparkSession 在Spark2.0中使用

2. Spark-shell/spark-sql的使用

（1）Spark速度比Hive快很多

（2）Spark-shell和Spark-sql用法差不多

執行過程：

1）解析成邏輯計劃

2）Spark自身會進行一次計劃優化

3）生成物理執行計劃，交給Spark執行

（3）過程：

1）hive-site.xml配置檔案（新增，放到spark下的conf中）

2）--jars傳遞mysql驅動包

3. thriftserver/beeline的使用

（1）首先啟動服務（要使用--jars傳mysql驅動）

（2）啟動beeline beeline -u jdbc:hive2://localhost:10000 -n hadoop 連線到thriftserver

4.thriftserver和普通的spark-shell/spark-sql有什麼區別？

（1）spark-shell/spark-sql都是對應的一個spark application

（2）thriftserver，不管啟動多少個客戶端（beeline/code）,永遠都是一個spark application

解決了一個數據共享問題，多個客戶端可以共享資料；（客戶端是指通過JDBC方式連線）

5.jdbc方式程式設計訪問

在使用JDBC開發時，一定要記得先啟動thriftserver

Spark專案學習-慕課網日誌分析-days2-Spark SQL

1.Spark SQL 概述（1）為什麼需要SQL 1）事實上的標準 2）簡單易學 Hive：類似於sql的Hive QL語言 sql==>mapreduce 特點：基於mapreduce 改進：基於tez spar

Spark專案學習-慕課網日誌分析-days5-Spark on Yarn

1. 概述（1）在Spark中，支援4種執行模式： 1）local:開發時使用 2）standalone：是Spark自帶的，如果一個叢集是Standalone的話，那就需要在多臺機器上同時部署Spa

Spark專案學習-慕課網日誌分析-days4-慕課網日誌分析

一慕課網日誌分析實戰專案 1）使用者行為日誌概述 2）離線資料處理架構（資料如何採集，如何清洗，需求處理，寫入資料庫，視覺化） 3）專案需求 4）功能實現

Spark專案學習-慕課網日誌分析-days3-External Data Source 外部資料來源

1. External Data Source 外部資料來源 1）每一個spark程式以載入資料開始，以輸出資料結束 2）方便快速的從不同的資料來源（json、parquet/rdbms），經過混合處理，在將處理結果以特定的格式，寫回到

Spark專案學習-慕課網日誌分析-days3-DataFrame&Dataset

1.DataFrame 1）不是Spark SQL提出的，而是早期在R，Pandas中產生的 2）DataFrame是一個以列（列名、列的型別、列值）的形式構成的分散式的資料集，按照列賦予不同的名稱 3）

Spark專案學習-慕課網日誌分析-days1-hadoop

1. HDFS架構 1 Master（NameNode/NM）帶 N個Slaves（DataNode/DN) HDFS/YARN/HBase 1個檔案會被拆分成多個Block NN： 1）負責客戶端請求的響應 2）負責元資料（檔案的名稱、

以慕課網日誌分析為例進入大資料 Spark SQL 的世界

第1章初探大資料本章將介紹為什麼要學習大資料、如何學好大資料、如何快速轉型大資料崗位、本專案實戰課程的內容安排、本專案實戰課程的前置內容介紹、開發環境介紹。同時為大家介紹專案中涉及的Hadoop、Hive相關的知識1-1 導學1-2 -如何學好大資料1-3 -開發環境介紹1-4 -OOTB映象檔案使用介紹1

以慕課網日誌分析為例進入大資料 Spark SQL 的世界 ---課程筆記--未完待續

第一章初探大資料 1、什麼是大資料？大資料特徵：4V 資料量(Volume) PB、EB、ZB 給予高度分析的新價值(Value) 鉅額資料裡面提取需要的高價值資料

以某課網日誌分析為例進入大資料 Spark SQL 的世界

第1章初探大資料本章將介紹為什麼要學習大資料、如何學好大資料、如何快速轉型大資料崗位、本專案實戰課程的內容安排、本專案實戰課程的前置內容介紹、開發環境介紹。同時為大家介紹專案中涉及的Hadoop、Hive相關的知識第2章 Spark及其生態圈概述Spark作為近幾年最火爆的

學習慕課網ES6實戰項目遇到的問題————呱呱二號

bsp pan 遇到 blog images 分享學習 es2017 技術分享看到這個問題之後，應該將scripts.js 這個文件的紅色區域修改饑渴學習慕課網ES6實戰項目遇到的問題————呱呱二號

第9章慕課網日誌實戰

9-1 -課程目錄 9-2 -使用者行為日誌概述為什麼要記錄使用者訪問行為日誌？網站頁面的訪問量網站的粘性推薦使用者行為日誌 Nginx ajax 使用者行為日誌：使用者每次訪問網站時所有的行為資料（訪問、瀏覽、搜尋、點選...) 使用者行為

Spring 學習--慕課網視訊教學

主要是SpringFramework 學習掌握用法：配置註解使用場景用法優劣深入理解：開發帶來的優勢實踐和總結的反覆spring是輕量級的IOC和AOP的容器框架輕量級大小和開銷的消耗低IOC達到鬆耦合的目的AOP分離應用的業務邏輯與系統級服務（在執行下都要用到的東西

python資料分析新手入門課程學習——（二）探索分析與視覺化（來源：慕課網）

一，單因子與對比分析視覺化資料 import pandas as pd df = pd.read_csv('./HR.csv') #檢視前十條資料 df.head(10) 以下為顯示的結果我們可以看出：第一個屬性satisf

python資料分析新手入門課程學習——（一）資料獲取（來源：慕課網）

一、資料獲取手段 1.資料倉庫（DW）：將所有業務資料經彙總處理構成 1）特點：全部事實的記錄；部分維

python資料分析新手入門課程學習——概述（來源：慕課網）

一、流程二、資料分析概述含義與目標：使用統計分析方法，在資料中提取有用的資訊

從慕課網學習 ElasticSearch的專案--搜房實戰

基於ElasticSearch的搜房網實戰一、核心技術 1.ElasticSearch+MySQL+Kafka實現站內搜尋引擎 2.ElasticSearch+百度地圖實現地圖找房功能 3.基礎核心框架=SpringBoot 4.資料庫的常青樹=MySQL+Spring Dat

JavaScript入門--慕課網學習筆記

裏的編寫 .com span 符號代碼格式 www 空白 body JAVASCRIPT—（慕課網）入門篇我們來看看如何寫入JS代碼？你只需一步操作,使用<script>標簽在HTML網頁中插入JavaScript代碼。

個人作業2：網站分析之慕課網

配置一次 adding tar 可能經理不同自己的同方產品名　　慕課網（網站）選擇原因　　　　目前使用比較頻繁的網站，也是程序員必備的一個網站第一部分調研，評測　　1、第一次上手體驗。首頁分類清楚，可以根據課程，職業路徑，還可以使用模糊查詢，根據需

【總結整理】javascript基礎入門學習（慕課網學習）

節點 confirm pro remove prompt 例如 ref 存儲基礎入門 https://www.imooc.com/learn/36 註意: javascript作為一種腳本語言可以放在html頁面中任何位置，但是瀏覽器解釋html時是按先後順序的，所以前面

【慕課網實戰】Spark Streaming實時流處理項目實戰筆記三之銘文升級版

聚集配置文件 ssi path fig rect 擴展 str 控制臺銘文一級： Flume概述Flume is a distributed, reliable, and available service for efficiently collecting(收集),

Spark專案學習-慕課網日誌分析-days2-Spark SQL

相關推薦