1. 程式人生 > >Hadoop的總體概述

Hadoop的總體概述

Hadoop的總體概述

Hadoop起源於谷歌的集群系統,谷歌的資料中心使用廉價Linux PC機組成叢集,在上面執行各種應用。

核心元件有3個:

第一個就是,GFS(GOOgle File Syetem),一個分散式檔案系統,隱藏下層負載均衡冗餘複製等細節,對上層程式提供一個統一的檔案系統API介面。

第二個是MapReduce的,谷歌發現大多數分散式運算可以抽象為MapReduce的操作.MAP是把輸入的輸入分解成中間的鍵/值對,減少把鍵/值合成最終輸出的輸出。這兩個函式由程式設計師提供給系統,下層設定把地圖和減少操作分佈在叢集上執行,並把結果儲存在GFS上。

第三個,BigTable

的,一個大型的分散式資料庫,這個資料庫不是關係式的資料庫,而是一個巨大的表格,用來儲存結構化的資料。

Hadoop的是一個由阿帕奇基金會所開發的分散式系統基礎架構。

而Hadoop的就是谷歌集群系統的一個開源實現,是一個專案總稱。

Hadoop的特點

Hadoop的是一個能夠讓使用者輕鬆和使用的分散式,計算平臺使用者可以輕鬆的在Hadoop的上開發和執行處理海量的應用程式,它主要有以下幾個特點:

  1. 高可靠性:Hadoop的按位儲存和處理資料的能力值得人們信賴。
  2. 高擴充套件性:Hadoop的是在可用的計算機集蔟間分配資料並完成計算任務,這些集蔟可以方便的擴充套件到數以千計的節點中。
  3. 高效性:Hadoop的能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新任務。
  4. 低成本:與一體機,商用資料倉庫以及QlikeView,YonghongZ套房等資料集市相比,Hadoop的是開源的,專案的軟體成本因此會大大降低。

Hadoop的的組成部分

Hadoop的框架最核心的設計有部分組成,分別是分散式檔案系統分散式計算框架

分散式檔案系統哈夫斯為海量的資料體供了儲存,主要用於大規模資料的分散式儲存。

分散式計算框架的MapReduce為海量的資料提供了計算,它構建在分散式檔案系統之上,對儲存在分散式檔案系統中的資料進行分步式計算。