Hadoop 三劍客之 —— 叢集資源管理器 YARN

一、hadoop yarn 簡介

Apache YARN (Yet Another Resource Negotiator) 是hadoop 2.0 引入的叢集資源管理系統。使用者可以將各種服務框架部署在YARN上，由YARN進行統一地管理和資源分配。

二、YARN架構

1. ResourceManager

ResourceManager通常在獨立的機器上以後臺程序的形式執行，它是整個叢集資源的主要協調者和管理者。ResourceManager負責給使用者提交的所有應用程式分配資源，它根據應用程式優先順序、佇列容量、ACLs、資料位置等資訊，做出決策，然後以共享的、安全的、多租戶的方式制定分配策略，排程叢集資源。

2. NodeManager

NodeManager是YARN叢集中的每個具體節點的管理者。主要負責該節點內所有容器的生命週期的管理，監視資源和跟蹤節點健康。具體如下：

啟動時向ResourceManager註冊並定時傳送心跳訊息，等待ResourceManager

的指令；
維護Container的生命週期，監控Container的資源使用情況；
管理任務執行時的相關依賴，根據ApplicationMaster的需要，在啟動Container之前將需要的程式及其依賴拷貝到本地。

3. ApplicationMaster

在使用者提交一個應用程式時，YARN會啟動一個輕量級的程序ApplicationMaster。ApplicationMaster負責協調來自 ResourceManager的資源，並通過NodeManager 監視容器內資源的使用情況，同時還負責任務的監控與容錯。具體如下：

根據應用的執行狀態來決定動態計算資源需求；
向ResourceManager

申請資源，監控申請的資源的使用情況；
跟蹤任務狀態和進度，報告資源的使用情況和應用的進度資訊；
負責任務的容錯。

4. Contain

Container是YARN中的資源抽象，它封裝了某個節點上的多維度資源，如記憶體、CPU、磁碟、網路等。當AM向RM申請資源時，RM為AM返回的資源是用Container表示的。YARN會為每個任務分配一個Container，該任務只能使用該Container中描述的資源。ApplicationMaster可在Container內執行任何型別的任務。例如，MapReduce ApplicationMaster請求一個容器來啟動 map 或 reduce 任務，而Giraph ApplicationMaster請求一個容器來執行 Giraph 任務。

三、YARN工作原理簡述

Client提交作業到YARN上；
Resource Manager選擇一個Node Manager，啟動一個Container並執行Application Master例項；
Application Master根據實際需要向Resource Manager請求更多的Container資源（如果作業很小, 應用管理器會選擇在其自己的JVM中執行任務）；
Application Master通過獲取到的Container資源執行分散式計算。

四、YARN工作原理詳述

1. 作業提交

client呼叫job.waitForCompletion方法，向整個叢集提交MapReduce作業 (第1步) 。新的作業ID(應用ID)由資源管理器分配(第2步)。作業的client核實作業的輸出, 計算輸入的split, 將作業的資源(包括Jar包，配置檔案, split資訊)拷貝給HDFS(第3步)。最後, 通過呼叫資源管理器的submitApplication()來提交作業(第4步)。

2. 作業初始化

當資源管理器收到submitApplciation()的請求時, 就將該請求發給排程器(scheduler), 排程器分配container, 然後資源管理器在該container內啟動應用管理器程序, 由節點管理器監控(第5步)。

MapReduce作業的應用管理器是一個主類為MRAppMaster的Java應用，其通過創造一些bookkeeping物件來監控作業的進度, 得到任務的進度和完成報告(第6步)。然後其通過分散式檔案系統得到由客戶端計算好的輸入split(第7步)，然後為每個輸入split建立一個map任務, 根據mapreduce.job.reduces建立reduce任務物件。

3. 任務分配

如果作業很小, 應用管理器會選擇在其自己的JVM中執行任務。

如果不是小作業, 那麼應用管理器向資源管理器請求container來執行所有的map和reduce任務(第8步)。這些請求是通過心跳來傳輸的, 包括每個map任務的資料位置，比如存放輸入split的主機名和機架(rack)，排程器利用這些資訊來排程任務，儘量將任務分配給儲存資料的節點, 或者分配給和存放輸入split的節點相同機架的節點。

4. 任務執行

當一個任務由資源管理器的排程器分配給一個container後，應用管理器通過聯絡節點管理器來啟動container(第9步)。任務由一個主類為YarnChild的Java應用執行，在執行任務之前首先本地化任務需要的資源，比如作業配置，JAR檔案, 以及分散式快取的所有檔案(第10步。最後, 執行map或reduce任務(第11步)。

YarnChild執行在一個專用的JVM中, 但是YARN不支援JVM重用。

5. 進度和狀態更新

YARN中的任務將其進度和狀態(包括counter)返回給應用管理器, 客戶端每秒(通mapreduce.client.progressmonitor.pollinterval設定)嚮應用管理器請求進度更新, 展示給使用者。

6. 作業完成

除了嚮應用管理器請求作業進度外, 客戶端每5分鐘都會通過呼叫waitForCompletion()來檢查作業是否完成，時間間隔可以通過mapreduce.client.completion.pollinterval來設定。作業完成之後, 應用管理器和container會清理工作狀態， OutputCommiter的作業清理方法也會被呼叫。作業的資訊會被作業歷史伺服器儲存以備之後使用者核查。

五、提交作業到YARN上執行

這裡以提交Hadoop Examples中計算Pi的MApReduce程式為例，相關Jar包在Hadoop安裝目錄的share/hadoop/mapreduce目錄下：

# 提交格式: hadoop jar jar包路徑 主類名稱 主類引數
# hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.15.2.jar pi 3 3

參考資料

初步掌握Yarn的架構及原理
Apache Hadoop 2.9.2 > Apache Hadoop YARN

更多大資料系列文章可以參見個人 GitHub 開源專案：大資料入門指南

相關推薦

Hadoop 三劍客之 —— 叢集資源管理器 YARN

一、hadoop yarn 簡介二、YARN架構 1. ResourceManager 2. NodeManager 3. ApplicationMaster 4. Contain 三、YARN工作原理簡述四、YARN工作原理詳述五、提

Hadoop 系列（二）—— 叢集資源管理器 YARN

一、hadoop yarn 簡介 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的叢集資源管理系統。使用者可以將各種服務框架部署在 YARN 上，由 YARN 進行統一地管理和資源分配。二、YARN架構 1. Res

YARN——Hadoop的叢集資源管理系統

　相對於昨天的HDFS，YARN明顯難一些。　　聽過大資料的人最多，聽過Hadoop的次之，聽過YARN的再次之。　　本文參考官方文件以及百度百科，去除了一些跟上一代的資源排程管理系統的對比，只求略懂一二，為後面的MapReduce任務鋪路。　

Sql Server2008 中的活動監視器、物件資源管理器詳細資訊、搜尋、查詢編輯器之IntelliSense (轉)

Management Studio首次出現在MSSQL2005中，到MSSQL2008中已經成為了一個更成功的產品。其中在SSMS2008中最重要的特性如下： 1.活動監視器 2.物件資源管理器詳細資訊 3.搜尋 4.查詢編輯器之IntelliSense &nb

Android原始碼解析之應用程式資源管理器（Asset Manager）的建立過程分析

轉載自：https://blog.csdn.net/luoshengyang/article/details/8791064 我們分析了Android應用程式資源的編譯和打包過程，最終得到的應用程式資源就與應用程式程式碼一起打包在一個APK檔案中。Android應用程式在執行的過程中，是通過一個

基於yarn資源管理器執行的任務，檢視yarn日誌相關操作

1、檢視某個job的日誌，例如：2、檢視某個job的狀態，例如：3、終止某個job 注意：一般不要直接在UI介面或者是終端kill掉任務，該任務可能還會繼續執行下去。正確操作方法：停止job的執行

WIN10打開資源管理器顯示該文件沒有與之關聯的程序來執行該操作.請安裝應用,請在“默認應用設置”..關聯 —— 解決方案

shell oot int dll 管理器 clas -s 中新箭頭 win+R,輸入regedit，分別在HKEY_CLASSES_ROOT\piffileHKEY_CLASSES_ROOT\InternetShortcutHKEY_CLASSES_ROOT\lnkfi

Windows資源管理器打開文件夾卡頓原因及解決辦法

打開監視器啟用 div xpl 通過 windows 資源解決方法全新安裝的 Win8 打開文件夾居然會卡頓，特別是打開EXE程序比較多的文件夾，通過資源監視器查看，幕後兇手就是 Windows Defender 殺毒軟件。 MSE是微軟提供防毒功能，而Window

Ubuntu標題欄實時顯示資源管理器

實時 -a get span pos 安裝運行 smon 添加添加安裝資源包sudo add-apt-repository ppa:fossfreedom/indicator-sysmonitorsudo apt-get update安裝更新sudo apt-get i

從資源管理器中，獲取被選擇的文件的路徑（及文件夾）的API

nis ont ftp bstr http api lib 管理 als 從下面的URL中，獲得了這個Library.Get paths of selected items in an explorer window /* http://www.autohotke

如何快速自定義Win10文件資源管理器界面

寶寶 html 文件資源管理器下載地址公眾號 root folder 光標 comm 今天筆者將和大家討論如何通過修改註冊表來快速地自定義Win10文件資源管理器的界面布局，你可以通過簡單地點擊鼠標右鍵來設置詳細信息窗格、預覽窗格和導航窗格的顯示與否。效果如下：右

VS團隊資源管理器(VS自帶git)使用說明_使用VS自帶git推送到遠程存儲庫

style 房子烏龜下一步分享圖片操作 str 多次沖突使用git存儲庫是相當好的習慣，每次碼完代碼就推送到遠程存儲庫，萬一不小心把本地代碼搞廢了，或者硬盤壞了，或者中了勒索病毒，本地代碼丟失了還能從服務器上下載。我曾經就中了一次勒索病毒，本地電腦上的所有文檔，

QT之布局管理器（十九）

QT 布局管理器水平垂直我們在之前的 GUI 開發中都是使用的是絕對定位，何謂絕對定位呢？就是我們直接在像素級指定各個組件的位置和大小。比如我們之前使用的 void QWidget::move(int x, int y)；void QWidget::resize(int

小型資源管理器

src tor files 資源管理 ubi IT ted 得到 direct private void Form1_Load(object sender, EventArgs e) { //添加根 T

input屬性type為file打開文件資源管理器時，如何限制多次選取或只能一次選取的行為

esc image object ttr itl 文件 ctu 轉化 idt 1、input標簽沒有設置multiple屬性，文件資源管理器默認一次選取 <!doctype html> <html lang="en"> <head>

Android遠程桌面助手之文件管理器

mage 文件系統下載地址顯示 pull target 圖片界面分享圖片 Android遠程桌面助手除了支持Android界面的顯示及控制外，還支持Android文件系統的管理，包括文件的快速上傳(push)、下拉(pull)和查看(cat)。 Android遠程

如何刪除Windows10操作系統資源管理器中的下載、圖片、音樂、文檔、視頻、桌面、3D對象這7個文件夾

war reg ren 操作系統 esp 桌面 bcf pac cal 通過註冊表刪除，步驟如下： 1、按下win+R，輸入regedit，打開註冊表 2、找到位置：計算機\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Windows\Curr

設置包資源管理器的背景色

tps round 資源 image explore src 啟動 eclipse ive 我們可以通過修改plugins文件夾中的css文件來做到。首先，定位到...\plugins\org.eclipse.ui.themes_1.1.1.v20151026-1355文

windows資源管理器及ie監聽

Okay, it’s been a while since we set aside our Little Program to learn a bit about connection points and using dispatch interfaces as connection p

Windows資源管理器相關資訊獲取

原文連結翻譯參考有的時候，軟體開發是創造新的東西，不過更常見的是把現有的東西組合到一起。今天的難題就屬於後一種。給定一個視窗控制代碼，你可以判定：（1）是否是一個資源管理器視窗，如果是，那麼（2）它正在顯示哪個資料夾，而且（3）當前焦點在哪一項上。這其實不是一件難事。你只