hive介紹
hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce、Tez任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析。
Hive將元數據存儲在數據庫(RDBMS)中,比如MySQL、Derby中。Hive有三種模式連接到數據,其方式是:單用戶模式,多用戶模式和遠程服務模式。(也就是內嵌模式、本地模式、遠程模式)
Hive是什麽
1、它是由FaceBook開源,最初用於解決海量結構化的日誌數據統計問題,它可以作為ETL工具。
2、它是構建在Hadoop之上的數據倉庫。
3、數據計算是MapReduce、Tez
4、數據存儲時HDFS
5、它定義了一種類SQL的查詢語言——HQL
6、它適合離線數據處理
7、它是將HQL轉換為MR、Tez的語言翻譯器。
8、HQL語言:簡單易用的類SQL查詢語言;編程模型:允許開發者自定義UDF、Trasform、Mapper、Reducer,來更簡單地完成復雜MapReduce無法完成的工作
9、數據格式:處理Hadoop上任意數據格式的數據,或則使用優化的格式存儲Hadoop上的數據,RCFile、ORCFile、Parquest
10、數據服務:HiveServer2,多種API訪問Hadoop上的數據,JDBC、ODBC
11、元數據服務:數據什麽樣,數據在哪裏,Hadoop上的唯一標準
Hive的常見應用場景
1、日誌分析
2、統計網站一個時間段內的pv、uv
3、從不同維度進行數據分析
4、海量結構化數據離線分析
Hive的優點/缺點
1、優點
1、簡單容易上手
2、它是為超大數據集而設計的計算和擴展能力
3、提供統一的元數據管理
2、缺點
Hive的HQL的表達能力有限
叠代式算法無法表達,比如PageRank;數據挖掘方面,比如K-means
如果,您認為閱讀這篇博客讓您有些收獲,不妨點擊一下右下角的【推薦】。
如果,您希望更容易地發現我的新博客,不妨點擊一下左下角的【關註我】。
如果,您對我的博客所講述的內容有興趣,請繼續關註我的後續博客,我是【劉超★ljc】。
本文版權歸作者,禁止轉載,否則保留追究法律責任的權利。
hive介紹