1. 程式人生 > >hive介紹

hive介紹

收獲 block style 結構 轉換 發現 無法 處理 作者

hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce、Tez任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。

Hive將元數據存儲在數據庫(RDBMS)中,比如MySQL、Derby中。Hive有三種模式連接到數據,其方式是:單用戶模式,多用戶模式和遠程服務模式。(也就是內嵌模式、本地模式、遠程模式)

Hive是什麽

1、它是由FaceBook開源,最初用於解決海量結構化的日誌數據統計問題,它可以作為ETL工具。

2、它是構建在Hadoop之上的數據倉庫。

3、數據計算是MapReduce、Tez

4、數據存儲時HDFS

5、它定義了一種類SQL的查詢語言——HQL

6、它適合離線數據處理

7、它是將HQL轉換為MR、Tez的語言翻譯器。

8、HQL語言:簡單易用的類SQL查詢語言;編程模型:允許開發者自定義UDF、Trasform、Mapper、Reducer,來更簡單地完成復雜MapReduce無法完成的工作

9、數據格式:處理Hadoop上任意數據格式的數據,或則使用優化的格式存儲Hadoop上的數據,RCFile、ORCFile、Parquest

10、數據服務:HiveServer2,多種API訪問Hadoop上的數據,JDBC、ODBC

11、元數據服務:數據什麽樣,數據在哪裏,Hadoop上的唯一標準

Hive的常見應用場景

1、日誌分析

2、統計網站一個時間段內的pv、uv

3、從不同維度進行數據分析

4、海量結構化數據離線分析

Hive的優點/缺點

1、優點

1、簡單容易上手

2、它是為超大數據集而設計的計算和擴展能力

3、提供統一的元數據管理

2、缺點

Hive的HQL的表達能力有限

叠代式算法無法表達,比如PageRank;數據挖掘方面,比如K-means

如果,您認為閱讀這篇博客讓您有些收獲,不妨點擊一下右下角的【推薦】。
如果,您希望更容易地發現我的新博客,不妨點擊一下左下角的【關註我】。
如果,您對我的博客所講述的內容有興趣,請繼續關註我的後續博客,我是【劉超★ljc】。

本文版權歸作者,禁止轉載,否則保留追究法律責任的權利。

hive介紹