MapReduce 內部核心工作機制

阿新 • • 發佈：2021-12-09

MapReduce 內部核心工作機制

使用者編寫的 MapReduce 程式提交給 Yarn 叢集執行，首先 Job 客戶端會根據程式中的輸入檔案目錄去掃描所有檔案，並按照檔案切片大小（BlockSize，預設 128M）進行切片，切片完成後會將切片資訊寫入到 ArrayList 集合中，然後進行序列化，最終生成一系列切片檔案 FileSplit0、FileSplit1...，這些切片檔案儲存著切片資訊
AppMaster 會根據切片數量決定啟動多少個 MapTask 任務（即 Yarn Chlid 程序名），並告訴每個 MapTask 任務應該讀取哪個檔案切片
MapTask 任務啟動後，會根據切片資訊去相應的位置（本地系統或 HDFS ）使用 TextInputFormat 元件逐行讀取資料，讀完一行資料將產生一對 kv 鍵值對（其中 k 表示讀取資料的偏移量，v 是行內容），這時將呼叫使用者定義的 Mapper 類的 map(k,v,context) 方法，將 kv 鍵值對作為引數傳遞進來，並執行使用者定義的 map 方法的資料拆分邏輯程式碼，並通過 context.write(k,v) 產生 kv 鍵值對

產生的 kv 鍵值對會源源不斷的傳送到 MapOutputCollector 元件中，這個元件是一個環形結構快取區（預設 100M），這個結構設計非常精巧，目的是為了儘可能儲存更多的 kv 鍵值對，節約記憶體空間
MapOutputCollector 元件不斷的往環形緩衝區中寫入 kv 鍵值對，但是不可能無限制寫下去，如果寫滿了就會覆蓋之前的內容。所以，達到 80% 時就不能再寫了，這時將觸發 Spill 元件（溢位）操作
Spill 元件先對環形緩衝區的 kv 鍵值對進行由小到大的分割槽，預設使用 HashPartitioner 分割槽器進行分割槽，然後每個分割槽再進行按照 Key 值的 compareTo() 方法排序

Spill 元件分割槽排序完成後，接著將環形緩衝區中各個分割槽的 kv 鍵值對寫入到本地磁碟檔案中。在這個過程中，MapTask 任務仍然可以繼續傳送 kv 鍵值對到環形緩衝區中，因為還有 20% 的空間可用。直到 Spill 元件將環形快取區所有 kv 鍵值對全部寫入磁碟後，環形緩衝區將釋放之前佔用的 80% 空間
多個分割槽意味著將寫入多個溢位檔案到磁碟中，這時則執行合併（Merge）操作，將其合併成一個檔案，合併過程中將生成分割槽索引檔案，便有以後 ReduceTask 任務拉取自己分割槽的資料。合併後的檔案存放在 NodeManger 的 Web 伺服器的 document 路徑下。至此，MapTask 任務結束退出

ReduceTask 任務啟動後，首先到各個 MapTask 所在的磁碟中拷貝自己所在分割槽的 kv 鍵值對檔案，然後將這些檔案進行合併和歸併排序
ReduceTask 任務再呼叫使用者定義的 Reducer 類的 reduce(k,迭代器,context) 方法，這裡迭代器每迭代一次，就從檔案中讀取一對 kv 鍵值對並賦值給建立的臨時 kv 物件，再迭代一次只需要給 kv 物件重新賦值即可，不需要再建立新的 kv 物件
檔案中所有 kv 鍵值對讀取完之後，通過 context.write(k,v,context) 方法將結果輸出，這時將呼叫 TextOutputFormat 元件的 LineRecordWriter 的 write(k,v) 將結果寫入到本地檔案系統或 HDFS中，寫檔案的名稱為 part-r-xxxxx，內容格式為 key \t value
ReduceTask 任務完成後退出

注意：MapTask 生成的資料傳輸到 ReduceTask 的過程被稱為 Shuffle（混洗）

MapReduce 內部核心工作機制

MapReduce 內部核心工作機制使用者編寫的 MapReduce 程式提交給 Yarn 叢集執行，首先 Job 客戶端會根據程式中的輸入檔案目錄去掃描所有檔案，並按照檔案切片大小（BlockSize，預設 128M）進行切片，切片完成後會

MapReduce之MapTask工作機制

1. 階段定義 MapTask：map----->sort map：Mapper.map()中將輸出的key-value寫出之前 sort：Mapper.map()中將輸出的key-value寫出之後

例項說明C++的virtual function的作用以及內部工作機制初探

C++為何要引入virtual function？來看一個基類的實現： 1 class CBase 2 { 3 public: 4CBase(int id) : m_nId(id), m_pBaseEx(NULL) {

MapReduce框架原理-MapTask和ReduceTask工作機制

MapTask工作機制並行度決定機制 1）問題引出 maptask的並行度決定map階段的任務處理併發度，進而影響到整個job的處理速度。那麼，mapTask並行任務是否越多越好呢？

HDFS 內部工作機制

HDFS叢集分為兩大角色：NameNode、DataNode(Secondary Namenode) NameNode 負責管理整個檔案系統的元資料

MapReduce 的核心流程

下文中新舊的意思分別代表 Hadoop 0.20 前後。原因是 MapReduce 在這個版本進行了一次大改，主要的特點就是劃分了新舊兩個包名。新版的特點是使用了抽象類代替一些可擴充套件的介面，以及增加了 Context 的概念。比如

SpringBoot工作機制之@SpringBootApplication

@SpringBootApplication 使用IDEA快速構建一個SpringBoot專案，使用的SpringBoot版本為2.1.6.RELEASE

python-迭代器協議和for迴圈工作機制

一、遞迴與迭代二、什麼是迭代器協議 1、迭代器協議是指：物件必須提供一個next方法，執行該方法要麼返回迭代中的下一項，要麼就引起一個stopiteration異常，已終止迭代（只能往後走不能往前退）

IO工作機制

一，磁碟IO工作機制 1.1 訪問檔案的方式 1.標註訪問：通過系統呼叫read和write函式；從磁碟複製到核心空間，在複製到使用者空間，非常耗費時間，因此在核心空間中存在一個快取機制。

Python迭代器協議及for迴圈工作機制詳解

深入JVM核心—工作原理、診斷與優化

資料型別　　Java虛擬機器中，資料型別可以分為兩類：基本型別和引用型別。

【系統之音】WindowManager工作機制詳解

前言目光所及，皆有Window！Window，顧名思義，視窗，它是應用與使用者互動的一個視窗，我們所見到檢視，都對應著一個Window。比如螢幕上方的狀態列、下方的導航欄、按音量鍵調出來音量控制欄、充電時的充電介面、螢

wordcount打包在叢集上執行+hadoop序列化+MapReduce並行度決定機制

1、wordcount打包在叢集上執行點選idea右側的mavenproject 成功之後：然後重新命名為1.jar上傳到我們的linux叢集中

深入分析Java I/O的工作機制

資料在網路中隨處流動，在這個流動的過程中都涉及到I/O問題，可以說大部分Web系統的瓶頸都是I/O瓶頸

MapReduce簡述、工作流程

MapReduce簡述、工作流程 MR程式設計模型之執行步驟：　　1、準備map處理的輸入資料

深入理解PHP之：Nginx 與 FPM 的工作機制

深入理解PHP之：Nginx 與 FPM 的工作機制網絡上有很多關於如何配置 Nginx + FPM 的文章，但它們更多從操作的角度出發，告訴我們怎麼做，但卻沒有告訴我們為什麼要這麼做，本文從

套接字 TCP 協議 HTTP協議工作機制

1、套接字作用：多個TCP 連線或多個應用程式程序可能通過一個TCP協議埠傳輸資料，為例區別不同的應用程式程序和連線，

（番外一）Arm32 中虛擬地址機制分析（Arm cortex-A系列 MMU工作機制分析）

Arm Cortex-A 系列記憶體管理單元（MMU）由於直接分析 linux arm32 mmu版的啟動程式碼會涉及到記憶體直接物理對映模式到開啟虛擬地址對映模式的轉換，這需要對 ARM32 中的虛擬地址實現機制有足夠的瞭解才

Hadoop框架：DataNode工作機制詳解

本文原始碼：GitHub·點這裡 ||GitEE·點這裡一、工作機制 1、基礎描述 DataNode上資料塊以檔案形式儲存在磁碟上，包括兩個檔案，一個是資料本身，一個是資料塊元資料包括長度、校驗、時間戳；

16. GPU管理和Device Plugin工作機制

技術標籤：雲原生kubernetes 本文由 CNCF + Alibaba 雲原生技術公開課整理而來需求來源

MapReduce 內部核心工作機制

MapReduce 內部核心工作機制

相關推薦