Hadoop Hive HBase Spark Storm概念解釋
阿新 • • 發佈:2019-01-07
Hadoop
Hadoop是什麼?
答:一個分散式系統基礎架構。
Hadoop解決了什麼問題?
答:解決了大資料(大到一臺計算機無法進行儲存,一臺計算機無法在要求的時間內進行處理)的可靠儲存(HDFS)和處理(MapReduce)。
Hive
Hive是什麼?
答:Hive是建立在Hadoop之上的,使用Hadoop作為底層儲存的批處理系統。(可以理解為MapReduce的一層殼)
Hive解決了什麼問題?
答:Hive是為了減少MapReduce jobs的編寫工作。
HBase
HBase是什麼?
答:HBase是一種Key/Value系統,它執行在HDFS之上。
HBase解決了什麼問題?
答:Hbase是為了解決Hadoop的實時性需求。
Spark和Storm是什麼?
答:Spark和Storm都是通用的平行計算框架。
解決了什麼問題?
答:解決Hadoop只適用於離線資料處理,而不能提供實時資料處理能力的問題。
區別:
1. Spark基於這樣的理念,當資料龐大時,把計算過程傳遞給資料要比把資料傳遞給計算過程要更富效率。而Storm是把資料傳遞給計算過程。
基於設計理念的不同,其應用領域也不同。Spark工作於現有的資料全集(如Hadoop資料)已經被匯入Spark叢集,Spark基於in-memory管理可以進行快訊掃描,並最小化迭代演算法的全域性I/O操作。Storm在動態處理大量生成的“小資料塊”上要更好(比如在Twitter資料流上實時計算一些匯聚功能或分析)。