大資料開發技術之Hive的構架原理

阿新 • • 發佈：2021-08-12

Hive架構原理

1．使用者介面：Client

CLI（hive shell）、JDBC/ODBC(java訪問hive)、WEBUI（瀏覽器訪問hive）

2．元資料：Metastore

元資料包括：表名、表所屬的資料庫（預設是default）、表的擁有者、列/分割槽欄位、表的型別（是否是外部表）、表的資料所在目錄等；

預設儲存在自帶的derby資料庫中，推薦使用MySQL儲存Metastore

3．Hadoop

使用HDFS進行儲存，使用MapReduce進行計算。

4．驅動器：Driver

（1）解析器（SQL Parser）：將SQL字串轉換成抽象語法樹AST，這一步一般都用第三方工具庫完成，比如antlr；對AST進行語法分析，比如表是否存在、欄位是否存在、SQL語義是否有誤。

（2）編譯器（Physical Plan）：將AST編譯生成邏輯執行計劃。

（3）優化器（Query Optimizer）：對邏輯執行計劃進行優化。

（4）執行器（Execution）：把邏輯執行計劃轉換成可以執行的物理計劃。對於Hive來說，就是MR/Spark。

Hive通過給使用者提供的一系列互動介面，接收到使用者的指令(SQL)，使用自己的Driver，結合元資料(MetaStore)，將這些指令翻譯成MapReduce，提交到Hadoop中執行，最後，將執行返回的結果輸出到使用者互動介面。

瞭解更多大資料培訓開發技術知識，關注我，有更多精彩內容與大家分享！

文章轉載連結：http://www.atguigu.com/jsfx/3300.html

大資料開發技術之Hive的構架原理

Hive架構原理 1．使用者介面：Client CLI（hive shell）、JDBC/ODBC(java訪問hive)、WEBUI（瀏覽器訪問hive）

大資料開發技術之Hive資料倉庫架構分層

資料倉庫架構分層 1. 資料倉庫架構資料倉庫標準上可以分為四層：ODS（臨時儲存層）、PDW（資料倉庫層）、DM（資料集市層）、APP（應用層）。

大資料開發技術之Hive開窗函式的使用

與聚合函式類似，開窗函式也是對行集組進行聚合計算。但是它不像普通聚合函式那樣，每組通常只返回一個值，開窗函式可以為每組返回多個值，因為開窗函式所執行聚合計算的行集組是視窗。

大資料開發技術之倒排索引案例分析

1．需求有大量的文字（文件、網頁），需要建立搜尋索引，如圖4-31所示。

大資料開發技術之MySQLSource的自定義

自定義Source說明 Source是負責接收資料到Flume Agent的元件。Source元件可以處理各種型別、各種格式的日誌資料，包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、le

大資料開發技術之自定義MySQLSource過程

大資料開發技術之Hadoop序列化概述與實操

1.序列化概述 1）什麼是序列化序列化就是把記憶體中的物件，轉換成位元組序列（或其他資料傳輸協議）以便於儲存（持久化）和網路傳輸。

大資料開發技術之被誤刪的HDFS檔案如何有效恢復

HDFS是大資料領域比較知名的分散式儲存系統，作為大資料相關從業人員，每天處理HDFS上的檔案資料是常規操作。這就容易帶來一個問題，實際操作中對重要資料檔案的誤刪，那麼如何恢復這些檔案，就顯得尤為重要。

大資料開發技術之Spark RDD詳解與依賴關係

RDD（Resilient Distributed Datasets）彈性的分散式資料集，又稱Spark core，它代表一個只讀的、不可變、可分割槽，裡面的元素可分散式平行計算的資料集。

大資料開發技術Scala/sql進入方法總結

大資料開發技術Scala/sql進入方法總結啟動Scala-Shell start-all.sh jps cd hadoop-2.9.2/ sbin/start-all.sh

大資料開發技術基礎篇Linux中遠端登入的設定

1. 安裝SecureCRT(英文版) Linux遠端登入及相關工具介紹 Linux一般作為伺服器使用，而伺服器一般放在機房，你不可能在機房操作你的Linux伺服器。這時我們就需要遠端登入到Linux伺服器來管理維護系統。

大資料開發技術HBase優化與特點分析

高可用在HBase中Hmaster負責監控RegionServer的生命週期，均衡RegionServer的負載，如果Hmaster掛掉了，那麼整個HBase叢集將陷入不健康的狀態，並且此時的工作狀態並不會維持太久。所以HBase支援對Hmaster的高可用

前端開發技術之require的原理分享

我們常說node並不是一門新的程式語言，他只是javascript的執行時，執行時你可以簡單地理解為執行javascript的環境。在大多數情況下我們會在瀏覽器中去執行javascript，有了node的出現，我們可以在node中去執行javas

大資料開發基礎之HDFS引數調優步驟分享

1.NameNode資料目錄 dfs.name.dir, dfs.namenode.name.dir 指定一個本地檔案系統路徑，決定NN在何處存放fsimage和editlog檔案。可以通過逗號分隔指定多個路徑. 目前我們的產線環境只配大資料培訓置了一個目錄，並

大資料開發技術面試注意哪些方面

大資料架構與開發顧名思義大資料是一個以資料為核心的產業。大資料產業從資料的生命週期的傳導和演變上可分為這幾個部分：資料收集、資料儲存、資料建模、資料分析、資料變現。

正確學習大資料開發技術的方法有哪些

大資料開發技術的應用在我們的生活中也是隨處可見的，對於現在來說並不是一個新的開發技術，在大資料開發技術的不斷髮展的過程中，已經趨於成熟，但是零基礎小夥伴想要通過大資料培訓機構學習來獲得開發技術知識，

大資料開發技術 NN 和 2NN 工作機制

NN 和 2NN 工作機制思考：NameNode 中的元資料是儲存在哪裡的？首先，我們做個假設，如果儲存在 NameNode 節點的磁碟中，因為經常需要進行隨機訪問，還有響應客戶請求，必然是效率過低。因此，元資料需要存放在記

大資料開發技術基礎

《大資料開發技術基礎》複習題型：選擇題（30分）、簡答題（20分）、分析論述題（20分）、程式設計題（30分）

大資料開發Linux系統之SSH的免登入原理

什麼是SSH 簡單說，SSH是一種網路協議，用於計算機之間的加密登入。如果一個使用者從本地計算機，使用SSH協議登入另一臺遠端計算機，我們就可以認為，這種登入是安全的，即使被中途截獲，密碼也不會洩露。

大資料開發之Hive SQL優化思路分享

Hive的優化主要分為：配置優化、SQL語句優化、任務優化等方案。其中在開發過程中主要涉及到的可能是SQL優化這塊。

大資料開發技術之Hive的構架原理

Hive架構原理

相關推薦