1. 程式人生 > >01_Hive簡介及其工作機制

01_Hive簡介及其工作機制

ofo .com 結構化 hdfs href htm hadoop 保存 簡單

1.Hive簡介

  Hive是一個基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一個表。並提供類SQL查詢功能,

可以將sql語句轉換為MapReduce任務運行。其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce

統計,不必開發專門的MapReduce應用,十分適合數據倉庫的統計分析

2.數據倉庫(面向主題、歷史):  

  數據庫是用來支撐在線聯機業務的。如頁面上數據的展示,保存客戶操作產生的數據。這類要求變更是實時的、

事務的。

  數據倉庫:如果聯機數據庫中的數據太大了,需要將歷史信息導入到離線的倉庫中。數據倉庫中可以存入各種

業務系統的數據,並按照一定主題

來組織這些數據表。數據倉庫中的數據一般用來做統計,數據分析。比如統計年

度銷售額,月度銷售額,廣告推薦等

3.Hive的工作機制:

  將清洗過的數據放入到HDFS中,就可進行各種統計了。但有些需求用MapReduce寫起來非常難,所以有了Hive

01_Hive簡介及其工作機制