1. 程式人生 > >Hadoop Hive HBase Spark Storm概念解釋

Hadoop Hive HBase Spark Storm概念解釋

Hadoop
Hadoop是什麼?
答:一個分散式系統基礎架構。

Hadoop解決了什麼問題?
答:解決了大資料(大到一臺計算機無法進行儲存,一臺計算機無法在要求的時間內進行處理)的可靠儲存(HDFS)和處理(MapReduce)。

Hive
Hive是什麼?
答:Hive是建立在Hadoop之上的,使用Hadoop作為底層儲存的批處理系統。(可以理解為MapReduce的一層殼)

Hive解決了什麼問題?
答:Hive是為了減少MapReduce jobs的編寫工作。

HBase
HBase是什麼?
答:HBase是一種Key/Value系統,它執行在HDFS之上。

HBase解決了什麼問題?
答:Hbase是為了解決Hadoop的實時性需求。

Spark和Storm是什麼? 

答:Spark和Storm都是通用的平行計算框架。

解決了什麼問題?
答:解決Hadoop只適用於離線資料處理,而不能提供實時資料處理能力的問題。

區別:
1. Spark基於這樣的理念,當資料龐大時,把計算過程傳遞給資料要比把資料傳遞給計算過程要更富效率。而Storm是把資料傳遞給計算過程。

基於設計理念的不同,其應用領域也不同。Spark工作於現有的資料全集(如Hadoop資料)已經被匯入Spark叢集,Spark基於in-memory管理可以進行快訊掃描,並最小化迭代演算法的全域性I/O操作。Storm在動態處理大量生成的“小資料塊”上要更好(比如在Twitter資料流上實時計算一些匯聚功能或分析)。