[HCNA Cloud]FusionInsight架構與原理
Yarn是Hadoop2.0中的資源管理系統,它是一個通用的資源管理模塊,可為各類應用程序進行資源管理和調度。Yarn是輕量級彈性計算平臺,除了MapReduce框架,還可以支持其他框架,比如Spark、Storm等。多種框架統一管理,共享集群資源。資源利用率高,運維成本低,數據共享方便。
Apache MapReduce是Google MapReduce的開源實現,是對並行計算的封裝,使用戶通過一些簡單的邏輯即可完成復雜的並行計算。其核心理念是將一個大的運算任務分解到集群每個節點上,充分運用集群資源,縮短運行時間。
MapReduce是一種簡化並行計算的編程模型,名字源於該模型中的兩項核心操作:Map和Reduce。Map將一個任務分解成為多個任務,Reduce將分解後多任務處理的結果匯總起來,得出最終的分析結果。
Spark是一個針對超大數據集合的低延遲的集群分布式計算系統,比MapReduce快40倍左右。
Spark是Hadoop的升級版本,Hadoop第一代產品使用HDFS,第二代加入了Cache來保存中間計算結果,並能適時主動推Map/Reduce任務,第三代就是Spark倡導的流Streaming。
Spark兼容Hadoop的API,能夠讀寫Hadoop的HDFS HBASE 順序文件等。
Storm是一個免費開源、分布式、高容錯的實時計算系統。Storm令持續不斷的流計算變得容易,彌補了Hadoop批處理所不能滿足的實時要求。
Storm經常用於在實時分析、在線機器學習、持續計算、分布式遠程調用和ETL等領域。
Hbase與HDFS使用相同的Zookeeper,都是使用ZooKeeper的一致性服務特性,進行主備切換。
[HCNA Cloud]FusionInsight架構與原理