1. 程式人生 > >分散式計算hadoop三大元件

分散式計算hadoop三大元件

設計原則:移動計算,而不是移動資料

計算層:Map/Reduce
排程層:YARN
資料層:HDFS

這三層之間沒有必然的依賴性,只是經常這麼搭配,而且都是hadoop那個包裡一起安裝的,三層都可以獨立執行,某一層或者某兩層換成其他的而另外兩層或者一層不換也是可以的


YARN 排程系統
  ResourceManager
  NodeManager
HDFS 存放資料
  NameNode
  DataNode

當有一個計算任務到來的時候,首先訪問YARN的ResourceManager然後將計算分發給一個或多個NodeManager,由NoadManager執行真正的計算


YARN和HDFS都是主從結構,都是為大資料處理來服務的

通常情況下:

YARN的NodeManage和HDFS的DataNode分別部署在同一臺機器上(計算和資料在同一臺機子上)

YARN的ResourceManager和HDFS的NameNode通常會各自佔用一臺機器(因為兩個都很廢記憶體)

但這並不是必須的,

ResourceManager可以和NameNode可以在同一臺機器上

NodeManager也可以和DataNode也可以在不同的機器上

 

YARN和HDFS在邏輯上是獨立的,可以相互配合也可以獨立使用,各自都可以單獨啟動,只不過他們兩個都在Hadoop下