1. 程式人生 > 其它 >hive基礎和進階

hive基礎和進階

一、hive基礎概念

1、Hive是什麼

  Hive 是建立在 Hadoop 上的資料倉庫基礎構架。它提供了一系列的工具,可以用來進行資料提取轉化載入(ETL ),這是一種可以儲存、查詢和分析儲存在 Hadoop 中的大規模資料的機制。Hive 定義了簡單的類 SQL 查詢語言,稱為 HQL ,它允許熟悉 SQL 的使用者查      詢資料。同時,這個語言也允許熟悉 MapReduce 開發者的開發自定義的 mapper 和 reducer 來處理內建的 mapper 和 reducer 無法完成的複雜的分析工作。

  Hive是SQL解析引擎,它將SQL語句轉譯成M/R Job然後在Hadoop執行。

  Hive的表其實就是HDFS的目錄,按表名把資料夾分開。如果是分割槽表,則分割槽值是子資料夾,可以直接在M/R Job裡使用這些資料。

  Hive相當於hadoop的客戶端工具,部署時不一定放在叢集管理節點中,可以放在某個節點上

2、hive與傳統資料庫比較

3、Hive的儲存格式

  Hive的資料儲存基於Hadoop HDFS。

  Hive沒有專門的資料檔案格式,常見的有以下幾種。 TEXTFILE SEQUENCEFILE AVRO RCFILE ORCFILE PARQUET

4、Hive操作客戶端