Apache Hadoop YARN：背景及概述

阿新 • • 發佈：2019-01-19

從2012年8月開始Apache Hadoop YARN（YARN = Yet Another Resource Negotiator）成了Apache Hadoop的一項子工程。自此Apache Hadoop由下面四個子工程組成：

Hadoop Comon：核心庫，為其他部分服務
Hadoop HDFS：分散式儲存系統
Hadoop MapReduce：MapReduce模型的開源實現
Hadoop YARN：新一代Hadoop資料處理框架

概括來說，Hadoop YARN的目的是使得Hadoop資料處理能力超越MapReduce。眾所周知，Hadoop HDFS是Hadoop的資料儲存層，Hadoop MapReduce是資料處理層。然而，MapReduce已經不能滿足今天廣泛的資料處理需求，如實時/準實時計算，圖計算等。而Hadoop YARN提供了一個更加通用的資源管理和分散式應用框架。在這個框架上，使用者可以根據自己需求，實現定製化的資料處理應用。而Hadoop MapReduce也是YARN上的一個應用。我們將會看到MPI，圖處理，線上服務等（例如

Spark，Storm，HBase）都會和Hadoop MapReduce一樣成為YARN上的應用。下面將分別介紹傳統的Hadoop MapReduce以及新一代Hadoop YARN架構。

傳統的Apache Hadoop MapReduce架構

傳統的Apache Hadoop MapReduce系統由JobTracker和TaskTracker組成。其中JobTracker是master，只有一個；TaskTracker是slaves，每個節點部署一個。

alt

圖 1 Apache Hadoop MapReduce系統架構

JobTracker負責資源管理（通過管理TaskTracker節點），追蹤資源消費/釋放，以及Job的生命週期管理（排程Job的每個Task，追蹤Task進度，為Task提供容錯等）。而TaskTracker的職責很簡單，依次啟動和停止由JobTracker分配的Task，並且週期性的向JobTracker彙報Task進度及狀態資訊。

Apache Hadoop YARN架構

YARN的最基本思想是將JobTracker的兩個主要職責：資源管理和Job排程管理分別交給兩個角色負責。一個是全域性的ResourceManager，一個是每個應用一個的ApplicationMaster。ResourceManager以及每個節點一個的NodeManager構成了新的通用系統，實現以分散式方式管理應用。

alt

圖2 Apache Hadoop YARN架構

ResourceManager是系統中仲裁應用之間資源分配的最高權威。而每個應用一個的ApplicationMaster負責向ResourceManager協商資源，並與NodeManager協同工作來執行和管理task。ResourceManager有一個可插入的排程器，負責向各個應用分配資源以滿足容量，組等限制。這個排程器是一個純粹的排程器，意思是它不負責管理或追蹤應用的狀態，也不負責由於硬體錯誤或應用問題導致的task失敗重啟工作。排程器只依據應用的資源需求來執行排程工作，排程內容是一個抽象概念Resource Container，其中包含了資源元素，例如記憶體，CPU，網路，磁碟等。

NodeManager是每個節點一個的slave，其負責啟動應用的container，管理他們的資源使用（記憶體，CPU，網路，磁碟）,並向ResourceManager彙報整體的資源使用情況。

每個應用一個的ApplicationMaster負責向ResourceManager的排程器協商合理的Resource Container並追蹤他們的狀態，管理進度。從系統角度看，ApplicationMaster本身也是以一個普通container的形式執行。

總結

由於MapReduce在計算模型方面的侷限性，Hadoop實現了更加通用的資源管理系統YARN，並將MapReduce作為其一個應用。在YARN上可以實現多種多樣計算模型的應用以滿足業務需要。另外由於YARN系統將JobTracker的主要工作進行切分，使得master的壓力大大減小（ResourceManager承擔的工作量遠小於JobTracker），這樣YARN系統就可以支援更大的叢集規模。

Apache Hadoop YARN：背景及概述

傳統的Apache Hadoop MapReduce架構

Apache Hadoop YARN架構

總結

Apache Hadoop YARN：背景及概述

Apache Hadoop YARN

Apache Hadoop YARN （官網文章）

Hadoop Yarn 框架原理及運作機制

hadoop寫MR程式報錯java.lang.AbstractMethodError: org.apache.hadoop.yarn.api.records.LocalResource.setShou

hadoop解決Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/yarn/util/Apps

hadoop錯誤org.apache.hadoop.yarn.exceptions.YarnException Unauthorized request to start container

Hadoop YARN：排程效能優化實踐

【2017cs231n斯坦福李飛飛視覺識別】筆記-第1講：計算機視覺概述及歷史背景

hadoop初識之三：搭建hadoop環境（配置HDFS，Yarn及mapreduce 執行在yarn）上及三種執行模式（本地模式，偽分散式和分散式介）

排查Hive報錯：org.apache.hadoop.hive.serde2.SerDeException: java.io.IOException: Start of Array expected

eclipse執行mapereduce程式時報如下錯誤：org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(

Kafka 溫故(一)：Kafka背景及架構介紹

訪問HDFS報錯：org.apache.hadoop.security.AccessControlException: Permission denied

React native：(StatusBar)修改狀態列背景及文字顏色

hive MapJoin 異常： return code 3 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

hadoop yarn記憶體的管理及分配

hadoop備戰：yarn框架的搭建（mapreduce2）

ml課程：聚類概述及K-means講解（含程式碼實現）

Rxjava2入門：函式響應式程式設計及概述

Apache Hadoop YARN： 背景及概述

傳統的Apache Hadoop MapReduce架構

Apache Hadoop YARN架構

總結

相關推薦

Apache Hadoop YARN：背景及概述