Hadoop的總體概述
阿新 • • 發佈:2018-12-14
Hadoop的總體概述
Hadoop起源於谷歌的集群系統,谷歌的資料中心使用廉價Linux PC機組成叢集,在上面執行各種應用。
其核心元件有3個:
第一個就是,GFS(GOOgle File Syetem),一個分散式檔案系統,隱藏下層負載均衡冗餘複製等細節,對上層程式提供一個統一的檔案系統API介面。
第二個是MapReduce的,谷歌發現大多數分散式運算可以抽象為MapReduce的操作.MAP是把輸入的輸入分解成中間的鍵/值對,減少把鍵/值合成最終輸出的輸出。這兩個函式由程式設計師提供給系統,下層設定把地圖和減少操作分佈在叢集上執行,並把結果儲存在GFS上。
第三個,BigTable 的,一個大型的分散式資料庫,這個資料庫不是關係式的資料庫,而是一個巨大的表格,用來儲存結構化的資料。
Hadoop的是一個由阿帕奇基金會所開發的分散式系統基礎架構。
而Hadoop的就是谷歌集群系統的一個開源實現,是一個專案總稱。
Hadoop的特點
Hadoop的是一個能夠讓使用者輕鬆和使用的分散式,計算平臺使用者可以輕鬆的在Hadoop的上開發和執行處理海量的應用程式,它主要有以下幾個特點:
- 高可靠性:Hadoop的按位儲存和處理資料的能力值得人們信賴。
- 高擴充套件性:Hadoop的是在可用的計算機集蔟間分配資料並完成計算任務,這些集蔟可以方便的擴充套件到數以千計的節點中。
- 高效性:Hadoop的能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新任務。
- 低成本:與一體機,商用資料倉庫以及QlikeView,YonghongZ套房等資料集市相比,Hadoop的是開源的,專案的軟體成本因此會大大降低。
Hadoop的的組成部分
Hadoop的框架最核心的設計有兩部分組成,分別是分散式檔案系統和分散式計算框架。
分散式檔案系統哈夫斯為海量的資料體供了儲存,主要用於大規模資料的分散式儲存。
分散式計算框架的MapReduce為海量的資料提供了計算,它構建在分散式檔案系統之上,對儲存在分散式檔案系統中的資料進行分步式計算。