YARN——Hadoop的叢集資源管理系統

阿新 • • 發佈：2018-11-13

YARN Architecture 筆記小結

　相對於昨天的HDFS，YARN明顯難一些。

　　聽過大資料的人最多，聽過Hadoop的次之，聽過YARN的再次之。

　　本文參考官方文件以及百度百科，去除了一些跟上一代的資源排程管理系統的對比，只求略懂一二，為後面的MapReduce任務鋪路。

　　 YARN，Ye Another Resource Negotiator——Hadoop的叢集資源管理系統。

　　它負責以下事情：

Resource Management 資源管理
Job Scheduling / Monitoring 任務排程、監控

YARN本身非常複雜，詳細的文件請參考官方：

https://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html

開始吧！

“資源”是什麼？

　　記憶體、CPU、硬碟、網路……

　　 YARN把這些資訊封裝起來，用一個概念來表示——Container(容器)

　　一般來說，1個Container可以執行一個任務(task)

　　日後Container的內容可能會更加豐富，比如顯示卡或專用處理器也可能會加入(人工智慧改變世界)

　　Conainer是一個動態資源劃分單位，根據app的需求動態產生。我理解它更像一臺臺虛機，可以獨立執行程式碼(task)。

以下是別人的部落格：
Container的一些基本概念和工作流程如下：
（1） Container是YARN中資源的抽象，它封裝了某個節點上一定量的資源（CPU和記憶體兩類資源）。它跟Linux Container沒有任何關係，僅僅是YARN提出的一個概念（從實現上看，可看做一個可序列化/反序列化的Java類）。
（2） Container由ApplicationMaster向ResourceManager申請的，由ResouceManager中的資源排程器非同步分配給ApplicationMaster；
（3） Container的執行是由ApplicationMaster向資源所在的NodeManager發起的，Container執行時需提供內部執行的任務命令（可以使任何命令，比如java、Python、C++程序啟動命令均可）以及該命令執行所需的環境變數和外部資源（比如詞典檔案、可執行檔案、jar包等）。
另外，一個應用程式所需的Container分為兩大類，如下：
（1）執行ApplicationMaster的Container：這是由ResourceManager（向內部的資源排程器）申請和啟動的，使用者提交應用程式時，可指定唯一的ApplicationMaster所需的資源；
（2）執行各類任務的Container：這是由ApplicationMaster向ResourceManager申請的，並由ApplicationMaster與NodeManager通訊以啟動之。
以上兩類Container可能在任意節點上，它們的位置通常而言是隨機的，即ApplicationMaster可能與它管理的任務執行在一個節點上。
一般而言，每個Container可用於執行一個任務。ApplicationMaster收到一個或多個Container後，再次將該Container進一步分配給內部的某個任務，一旦確定該任務後，ApplicationMaster需將該任務執行環境（包含執行命令、環境變數、依賴的外部檔案等）連同Container中的資源資訊封裝到ContainerLaunchContext物件中，進而與對應的NodeManager通訊，以啟動該任務。
來自：

http://dongxicheng.org/mapreduce-nextgen/understand-yarn-container-concept/

　　沒看懂？沒關係，略過就好，看完之後，會更容易理解

接下來，我們從上到下地介紹整個框架。

整個系統一個：ResourceManager (RM)，負責整個系統的資源管理和分配。由2部分組成：Scheduler(排程器)、ApplicationsManager (ASM)

每個App一個：ApplicationMaster (App Mstr 或者 AM)

每個節點一個：NodeManager (NM)

放圖：

　　左邊2個Client，對應2種顏色，粉色、紫色，每個Client跑了一個App。(右邊2個App Mstr)

　　中間這個是RM，全域性唯一。

　　左邊有3個節點，3個NM，每個節點2個Container.從上到下：

第一個節點，有2個Container(一組資源)，其中一個跑了一個App Mstr，但是箭頭可以看出，這2個Container並不屬於一個App
第二個節點，跟第一個節點剛好反過來
第三個節點，有2個粉色App的Container，沒有跑第三個App Mstr

再來看看圖裡面的箭頭：

每個NM都要向RM傳送本節點的情況(Node Status)
左邊2個Client分別向RM提交Job (Job Submission)

此時RM的ASM會起2個App Mstr，並在它們執行失敗時重啟它

App Mstr向RM 傳送資源申請 (Resource Request)

RM只負責監控App Mstr，並不負責App Mstr內部任務的容錯，這是App Mstr的事兒，它會將一個Job分解為多個task，並與RM協調執行所需要的Container，將任務分配給Container。App Mstr將與NM一起安排、執行、監控這些Container

每個Container向App Mstr傳送 MapReduce Status （MapReduce 任務的狀態）

Okay，到這裡，你應該已經對整個叢集的工作方式，有了大概的瞭解。

接下來是一些細緻的介紹。

RM的Secheduler：

　　排程器，它會根據一些條件限制，比如capacities（容量）, queues（佇列）（每個佇列分配一定的資源，最多執行一定數量的作業。佇列是一個挺重要的概念，我相信以後還會遇到），將系統的資源(Container)分配給正在執行的App。

　　 Secheduler的工作是純粹的，它僅分配Container。不負責對App監控、跟蹤、失敗重啟等等

RM的ApplicationsManager:

　　 ASM，它會做Secheduler不做的事情，負責管理整個系統中，所有的App，包括了：

Job Submision
與Secheduler協商，拿出這個App的第一個Container來執行該App的App Mstr
在App Mstr掛掉時，重啟它

（但它也只面向App Mstr，不管App Mstr下面Container的情況）

App Mstr：

與Secheduler協商合適的Container
跟蹤他們的狀態
監控它們的程序
與NM通訊以啟動/停止Container
(官網原話：ApplicationMaster has the responsibility of negotiating appropriate resource containers from the Scheduler, tracking their status and monitoring for progress.)

NM：

　　每個節點上的資源和工作管理員，它負責：

定時向RM彙報本節點上的Container使用情況、以及各個Container的執行情況
接受並處理來自AM的Container啟動/停止等各種請求

YARN 的幾個概念：

ResourceManager
ApplicationMaster
NodeManager

1、ResourceManager

負責接受客戶端提交的 job，分配和排程資源
啟動 ApplicationMaster，判斷 job 所需資源
監控 ApplicationMaster，在其失敗的時候進行重啟
監控 NodeManager

2、ApplicationMaster

為 MapReduce 型別的程式申請資源，並分配任務
負責相關資料的切分
監控任務的執行及容錯

3、NodeManager

管理單個節點的資源，向 ResourceManager 進行彙報
接收並處理來自 ResourceManager 的命令
接收並處理來自 ApplicationMaster 的命令

MapReduce 程式設計模型

場景：輸入一個大型檔案，通過 split 將其分成多個檔案分片
Map：每個檔案分片由單獨的機器進行處理，這就是 Map 方法
Reduce：將各個機器的計算結果進行彙總，得到最終的結果，這就是 Reduce 方法

Map 任務處理

讀取輸入檔案的內容，解析成鍵值對，把檔案的每一行解析成鍵值對，每個鍵值對呼叫一次 map 函式；(Input)
寫自定義的邏輯，對輸入的鍵值對進行處理，轉換成新的鍵值對輸出；(Map)
對不同分割槽的資料，按照鍵（key）進行排序和分組，key 相同的值（value）放到一個集合中；(Sort -> Combine)
把輸出的鍵值對（此時只是中間結果）按照 key 的範圍進行分割槽處理；(Partition)
分組後的資料進行 reduce 處理。

Reduce 任務處理

對多個 map 任務的輸出，按照不同分割槽，通過網路 copy 到不同的 reduce 節點；
對多個 map 任務的輸出進行合併和排序，自定義 reduce 函式的邏輯，對輸入的鍵（key）和值（value）進行處理，轉換成新的鍵值對輸出；(Reduce)
把 reduce 的輸出儲存到檔案中。(Output)

MapReduce 的整個工作流程可以歸結為：

Input -> Map -> Sort -> Combine -> Partition -> Reduce -> Output

　　寫完以後，覺得Container的概念非常複雜，不過我覺得沒有必要糾結於一個點廢太多時間，日後自然會懂的。

　　希望對你有幫助。

轉自：知乎大魚和葛堯的回答
連結：https://zhuanlan.zhihu.com/p/33198500
連結：https://zhuanlan.zhihu.com/p/31810137

YARN——Hadoop的叢集資源管理系統

　相對於昨天的HDFS，YARN明顯難一些。　　聽過大資料的人最多，聽過Hadoop的次之，聽過YARN的再次之。　　本文參考官方文件以及百度百科，去除了一些跟上一代的資源排程管理系統的對比，只求略懂一二，為後面的MapReduce任務鋪路。　

你的數據安全麽？Hadoop再曝安全漏洞| 黑客利用Hadoop Yarn資源管理系統未授權訪問漏洞

分布式摘要： 4月30日，阿裏雲發現，俄羅斯黑客利用Hadoop Yarn資源管理系統REST API未授權訪問漏洞進行攻擊。 Hadoop是一款由Apache基金會推出的分布式系統框架，它通過著名的 MapReduce 算法進行分布式處理，Yarn是Hadoop集群的資源管理系統。4月30日，阿裏雲發現，俄

Hadoop 三劍客之 —— 叢集資源管理器 YARN

一、hadoop yarn 簡介二、YARN架構 1. ResourceManager 2. NodeManager 3. ApplicationMaster 4. Contain 三、YARN工作原理簡述四、YARN工作原理詳述五、提

Hadoop 系列（二）—— 叢集資源管理器 YARN

一、hadoop yarn 簡介 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的叢集資源管理系統。使用者可以將各種服務框架部署在 YARN 上，由 YARN 進行統一地管理和資源分配。二、YARN架構 1. Res

大資料-Hadoop-分散式資源排程系統YARN部署

1：YARN部署 1.1：etc/hadoop/mapred-site.xml: <property> <name>mapreduce.framework.name</name&

Hadoop Yarn多使用者資源管理–Fair Scheduler介紹與配置

關鍵字：Hadoop 多使用者、資源、fair scheduler 在一個公司內部的Hadoop Yarn叢集，肯定會被多個業務、多個使用者同時使用，共享Yarn的資源，如果不做資源的管理與規劃，那麼整個Yarn的資源很容易被某一個使用者提交的Application佔滿，其它任務只能等待，這種當然很不合

資源管理系統

方便對比 gem per 定時任務 splay base 固定 data- RMS（Resource Management System）是基於Tecs Director 和Tecs Openstack的資源管理系統。所處位置如下：最底層是Tecs OpenStac

hadoop集群管理系統搭建安裝規劃說明

關於 RoCE mil 平臺管理系業務好的技術超過 Hadoop分布式集群環境搭建是每個入門級新手都非常頭疼的事情，因為你可能花費了很久的時間在搭建運行環境，最終卻不知道什麽原因無法創建成功。但對新手來說，運行環境搭建不成功的概率還蠻高的。在之前的分享文章中給ha

靜態資源的虛擬路徑和獨立靜態資源管理系統的實現

一、什麼是虛擬路徑？舉個例子：上傳一張圖片放到：D://group/29015054169244_投影.png &nbs

HRMS(人力資源管理系統)-從單機應用到SaaS應用-系統介紹

上週釋出的《2018,全新出發(全力推動實現住有所居)》文章，其中記錄了個人在這5年過程中的成長和收穫，有幸認識了不少部落格園的朋友，大家一起學習交流，在這個過程當中好多朋友提出SaaS系統如何設計，架構方面如何下手，在這5年的過程中我參與規劃設計了很多的SaaS系統其中有不少的坑和痛苦的經驗，特別

HRMS(人力資源管理系統)-從單機應用到SaaS應用-架構分析(功能性、非功能性、關鍵約束)-上篇

一、開篇上一篇《HRMS(人力資源管理系統)-從單機應用到SaaS應用-系統介紹》我們已經詳細的分析了HRMS系統具備的功能，並且從HRMS系統的概念、系統功能、HR行業管理現狀及痛點、發展趨勢及行業前景、行業內的服務提供商情況、HRMS系統的建設意義及價值等方面進行了系統化的分析梳理。我想大家

HRMS(人力資源管理系統)-從單機應用到SaaS應用-架構分析(功能性、非功能性、關鍵約束)-下篇

一、開篇本篇主將具體結合HRMS系統進行架構概要分析，按照上篇的理論指導，開展具體的架構分析過程實踐，通過分析找到關鍵功能、關鍵非功能性需求（關鍵質量及約束）等。在闡述具體的架構工作方法之前，請大家先檢視以下三方面的內容： 1、HRMS系統的介紹？（涵蓋哪些功能

HRMS(人力資源管理系統)-SaaS架構設計-概要設計實踐

一、開篇本篇主將詳細的闡述架構設計過程中概要架構設計要點來和大家共同交流，掌握後續如何強化概要架構設計在架構設計中作用，幫助我們快速確認架構的方向及核心大框架。在闡述具體的概要架構工作方法之前，還請大家先參考我們限定的業務場景： 1、HRMS系統的介紹？（涵蓋哪些功能

Hadoop_YARN資源管理系統原始碼解析

目錄一、YARN產生的背景(MRv1的侷限性) 二、YARN原始碼結構三、YARN基本架構四、YARN各模組詳細分析五、MRAppMaster-MapReduce On YARN實現六、YarnChild-MR引擎啟動入口七、總結一、YARN

人力資源管理系統的演化

初期設計目標: 緊密聚焦於人力資源戰略價值打造面向角色的服務平臺通過移動與網際網路改變使用習慣聚焦使用者體驗提升，降低使用者使用負擔改變產品與使用者互動模式，更貼近使用者痛點: 模組圖overview: 企業HR管理需求發

整合SpringMVC框架+Mybatis框架開發人力資源管理系統（十）

實現使用者管理中的查詢功能並將之呈現系統的使用者管理功能包含使用者查詢、使用者新增、使用者刪除與使用者修改等功能。先貼上該方法程式碼： @RequestMapping(value="/selectUser") public String selectUser(

整合SpringMVC框架+Mybatis框架開發人力資源管理系統（九）

使用者登入功能的實現由於系統設定了一個interceptor對使用者訪問進行了攔截，未登入使用者無法進入系統進行下一步的操作，因此要想實現進一步操作就必須進行登入，系統的登入功能的實現大致是：1、使用者提交登入表格引數（該請求不受攔截器攔截，可提交到前端控制器）2、前端控制器接收到該請

整合SpringMVC框架+Mybatis框架開發人力資源管理系統（八）

系統UI介面設計為了實現許可權控制並提高安全性，我將所有的jsp頁面均放在WEB-INF的資料夾下，利用一個攔截器判斷使用者是否登入，未登入使用者不具備訪問的資格。攔截器程式碼如下： package org.fkit.hrm.interceptor; import javax.s

整合SpringMVC框架+Mybatis框架開發人力資源管理系統（七）

實現業務邏輯介面HrmService 業務邏輯介面HrmService中定義了系統功能實現所需要呼叫的方法，HrmServiceImpl類實現了該介面，對每個方法的方法體進行了具體實現： package org.fkit.hrm.impl; import java.util.Has

整合SpringMVC框架+Mybatis框架開發人力資源管理系統（六）

業務邏輯元件HrmService介面的實現業務邏輯元件的實現需要依賴於DAO元件，在HrmService介面中針對需要操作的六個實體（User、Employee、Job、Dept、Notice、Document）設計了不一樣的業務方法（CRUD），每個方法又會呼叫DAO元件中的一個或多

YARN——Hadoop的叢集資源管理系統

“資源”是什麼？

YARN 的幾個概念：

相關推薦