大資料的倉庫Hive原理（二）

阿新 • • 發佈：2019-02-15

上次我們說到了大資料應用中的資料倉庫hive，我們知道了利用hive可以更方便的處理資料，而且它的擴充套件性、延展性和容錯性都比較好，但是它是如何利用Hql(類Sql語句)來實現資料處理的呢。

1、架構回顧

這裡寫圖片描述

使用者提交查詢請求與獲得查詢結果。包括三個介面：命令列（CLI）、Web GUI（Hue）和客戶端。

Driver

接受查詢請求與返回查詢結果。實現了session的概念，以處理和提供基於JDBC/ODBC執行以及頡取的API。

Compiler

編譯器，分析查詢SQL語句，在不同的查詢塊和查詢表示式上進行語義分析，並最終通過從metastore中查詢表與分割槽的元資訊生成執行計劃。
Metastore

元資料儲存，元資料儲存在MySQL或derby等資料庫中。元資料包括Hive各種表與分割槽的結構化資訊，包括列與列型別資訊，序列化器與反序列化器，從而能夠讀寫hdfs中的資料。

Execution Engine

執行引擎，執行由compiler建立的執行計劃。此計劃是一個關於階段的有向無環圖。執行引擎管理不同階段的依賴關係，通過MapReuce執行這些階段。

2、編譯流程

Parser：分析器，將SQL轉換成抽象語法樹。

Semantic Analyzer：語義分析，將抽象語法樹轉換成查詢塊。

Logic Plan Generator：邏輯查詢計劃生成器，將查詢塊轉換成邏輯查詢計劃，該計劃是一棵操作符樹。

LogicalOptimizer：重寫邏輯查詢計劃。

Physical Plan Generator：物理查詢計劃生產器，將邏輯計劃轉成一些列的M/R jobs。

PhysicalOptimizer：選擇最佳Join策略。

3、工作流程

這裡寫圖片描述

1 Execute Query

Hive介面，如命令列或Web UI傳送查詢驅動程式（任何資料庫驅動程式，如JDBC，ODBC等）來執行。

2   Get Plan

在驅動程式幫助下查詢編譯器，分析查詢檢查語法和查詢計劃或查詢的要求。

3   Get Metadata

編譯器傳送元資料請求到Metastore（任何資料庫）。

4   Send Metadata

Metastore傳送元資料，以編譯器的響應。

5   Send Plan

編譯器檢查要求，並重新發送計劃給驅動程式。到此為止，查詢解析和編譯完成。

6   Execute Plan

驅動程式傳送的執行計劃到執行引擎。

7   Execute Job

在內部，執行作業的過程是一個MapReduce工作。執行引擎傳送作業給JobTracker，在名稱節點並把它分配作業到TaskTracker，這是在資料節點。在這裡，查詢執行MapReduce工作。

7.1 Metadata Ops

與此同時，在執行時，執行引擎可以通過Metastore執行元資料操作。

8   Fetch Result

執行引擎接收來自資料節點的結果。

9   Send Results

執行引擎傳送這些結果值給驅動程式。

10  Send Results

驅動程式將結果傳送給Hive介面。

總結：

我們從hive的簡單介紹到它優缺點的理解，以及它與傳統關係型資料庫的區別都做了一些學習，今天我們又對它的原理做了一些簡單的認識，下次我們繼續深入解析hive的工作原理。

大資料的倉庫Hive原理（二）

上次我們說到了大資料應用中的資料倉庫hive，我們知道了利用hive可以更方便的處理資料，而且它的擴充套件性、延展性和容錯性都比較好，但是它是如何利用Hql(類Sql語句)來實現資料處

大資料Hadoop學習筆記（二）

Single Node Setup 官網地址 1. 本地模式 2.偽分散式模式 ************************* 本地模式 **************************** . grep input output ‘dfs[a-

大資料筆記spark篇（二）：pyspark的安裝

開篇關於spark的配置其實沒有必要詳細地寫，這邊我放上我學習參考的廈門大學的部落格，拖了n年，我總算把單機版的spark給安裝上了。環境變數 export JAVA_HOME=/usr/lib/jvm/default-java export HA

大資料的核心技術（二）

我們在上一篇文章中給大家介紹了大資料的部分核心技術，分別是資料探勘和機器學習。在大資料中，資料探勘和機器學習都是發揮了不同的功能。在這篇文章中我們給大家介紹一下人工智慧和其他大資料處理的基礎技術，希望這篇文章能能夠給大家帶來幫助。首先說說人工智慧，AI和大資料是相互促進的關係，一方面，AI基礎理論技術

大資料：Spark Core（二）Driver上的Task的生成、分配、排程

1. 什麼是Task?在前面的章節裡描述過幾個角色，Driver(Client),Master,Worker(Executor)，Driver會提交Application到Master進行Worker上的Executor上的排程，顯然這些都不是Task.Spark上的幾個關係

蘇先生之大資料面試經驗總結（二）

1、flume與kafka的區別 flume適合做日誌採集，可以定製多種資料來源，減少開發量；而kafka是分散式訊息處理的中介軟體，自帶儲存功能，適合做日誌快取；flume主要用於將資料往HDFS、HBASE傳送；如果涉及多個系統的使用，可以選擇用kafka

大資料：Spark Storage（二）叢集下的broadcast

Spark BroadCast Broadcast 簡單來說就是將資料從一個節點複製到其他各個節點，常見用於資料複製到節點本地用於計算，在前面一章中討論過Storage模組中BlockManager，Block既可以儲存在記憶體中，也可以儲存在磁碟中，當Executor節點

利用Data Vault對資料倉庫進行建模（二）

寫在前面本篇先不討論Data Vault其本身，因為不見得所有人都接受這個。但是裡邊有一些很不錯的東西跟主流的資料倉庫方法是有共同點的，所以這裡主要討論這些共同的方法，在筆者看來，無論是Kimball還是DV，這些方法都是很有用的。這個系列為作者本人哥本哈士奇的個人理解和總結，可能會有理解上的偏差，也歡迎大

大二上期資料結構實驗記錄（二）【初版】C實現簡單一元多項式加減乘求導及代值計算（有借鑑刪改）

想要記錄自己程式設計思維的成長所以發到部落格，歡迎並且感激大家指出缺點和錯誤！一、【實驗構思（Conceive）】本次實驗要求是用C或C++語言設計並實現一個一元稀疏多項式的簡單計算器，要求是要有如下功能 1、輸入並建立多項式 2、輸出多項式，序列按指數降序

【原創】大資料基礎之Spark（4）RDD原理及程式碼解析

一簡介 spark核心是RDD，官方文件地址：https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds官方描述如下：重點是可容錯，可並行處理 Spark r

【原創】大資料基礎之Spark（5）Shuffle實現原理及程式碼解析

一簡介 Shuffle，簡而言之，就是對資料進行重新分割槽，其中會涉及大量的網路io和磁碟io，為什麼需要shuffle，以詞頻統計reduceByKey過程為例， serverA：partition1: (hello, 1), (word, 1)serverB：partition2: (hell

【原創】大資料基礎之Spark（6）rdd sort實現原理

spark 2.1.1 spark中可以通過RDD.sortBy來對分散式資料進行排序，具體是如何實現的？來看程式碼： org.apache.spark.rdd.RDD /** * Return this RDD sorted by the given key function.

Python海量資料處理之_Hadoop（二）概念和原理

1. 說明 Hadoop是個分散式的架構，它將海量資料處理工作分配到叢集中的多個機器上執行。前篇介紹了Hadoop的安裝，在安裝過程中會產生一些疑問，比如NameNode是什麼東西？本篇就以問題&解答的方式介紹Hadoop的相關概念及其原理。 2. NameNode，DataNode，以及Seco

Hive總結（二）Hive資料匯入的三種方式

零．Hive的幾種常見的資料匯入方式常用的的有三種： 1.從本地檔案系統中匯入資料到Hive表； 2.從HDFS上匯入資料到Hive表； 3.在建立表的時候通過從別的表中查詢出相應的記錄並插入到所建立的表中。 Hive配置： HDFS中Hive資料

計算機網路--可靠資料傳輸原理（二）

【SpringMVC架構】SpringMVC入門實例，解析工作原理（二）

rip 業務邏輯層 popu 輸入 implement override article hide -i 上篇博文，我們簡單的介紹了什麽是SpringMVC。這篇博文。我們搭建一個簡單SpringMVC的環境，使用非註解形式實現一個HelloWorld實

QR 編碼原理（二）

bit 選擇 www. nbsp char 混合示例 mode 匹配編碼就是把常見的數字、字符等轉換成QR碼的方法。說具體的編碼之前，先說一下QR碼的最大容量問題。一、最大容量 QR碼的最大容量取決於選擇的版本、糾錯級別和編碼模式（Mode:數字、字符、多字節字符等）

瀏覽器工作原理（二）：瀏覽器渲染過程概述

sync 結構 dom end 繪制 fault 異步加載步驟 targe 參考：https://segmentfault.com/a/1190000012925872#articleHeader4 瀏覽器器內核拿到內容後，渲染大概可以劃分成以下幾個步驟：解析html

GCC編譯器原理（二）------編譯原理一：ELF文件

過程外部文件初始 cati tor 保護功能編譯原理外部 comm 二、ELF 文件介紹 2.1 可執行文件格式綜述相對於其它文件類型，可執行文件可能是一個操作系統中最重要的文件類型，因為它們是完成操作的真正執行者。可執行文件的大小、運行速度、資源占用情況

讀《有效管理的5大兵法》筆記摘錄（二）十二條令

畫面最大等你方式討論進度處理素材小時二、十二條令 1、指令條令指令條令：確認指令及時報告親撰周報指令確認指令及時報告親撰周報指令確認指令為什麽要確認指令——指令丟失或者被誤解的危害非常大。如何確認指令

大資料的倉庫Hive原理（二）

1、架構回顧

2、編譯流程

3、工作流程

總結：

相關推薦