MapReduce工作流程

阿新 • • 發佈：2021-08-08

MapReduce工作流程圖

流程詳解（重點）

MapTask

待處理的文字通過submit()方法，獲取待處理的資料資訊，然後根據InputFormat切片方法機制，生成切片方法檔案。把切片方法檔案和資源配置檔案全部提交在資源路徑。提交的資訊有：Job.split、wc.jar、Job.xml
把資源提交路徑下的資訊檔案提交給YARN叢集或者本地記憶體中，之後YARN叢集根據提交的資訊啟動Mr appmaster主機
Mr appmaster根據提交的切片規劃機制計算出MapTask的數量，生成對應的MapTask任務。
MapTask任務根據Mr appmaster分配的資料量，去原始檔案當中讀取相應切片的資料。讀取資料需要藉助InputFormat中定義的 RecordReader（如果沒有定義，則會預設使用TextInputFormat）進行切片

如果使用預設切片方法，則每讀取一行，在Mapper類中進行邏輯運算，即通過獲取到的key-value值確定檔案傳到Reduce類中的key-value值
邏輯運算完成後，通過Context.write(k,v)方法進行資料傳輸。此時先將結果（<k,v>資料）寫入到一個環形緩衝區，在這個環形緩衝區中一分為二，從右側的緩衝區開始寫入資料（<k,v>鍵值對），從左側開始寫入資料的索引。
在往環形緩衝區寫入資料的過程中，不僅要寫入資料的索引，還需要寫出資料所在分割槽（MapReduce中分割槽預設有一個，也可以指定多個分割槽）。在聲明瞭所在的分割槽之後，要對<k,v>鍵值對進行排序。排序不是每時每刻進行的，是在資料寫入完成，或者資料往磁碟溢寫的時候，要進行一次排序

當記憶體已存入80%時，將環形緩衝區中的資料溢寫到磁碟中，並將緩衝區中的資料清空，之後在反向寫入資料和索引（順時針改為逆時針/逆時針改為順時針）。如果資料過多，會進行多次溢寫，溢寫時根據分割槽溢寫，並且每個分割槽內的資料是有序的
對溢寫檔案通過Merge進行歸併排序，之後通過Combiner對資料進行合併

ReduceTask

MapTask資料處理完成之後，將資料寫入緩衝區分割槽或者磁碟中去，磁碟中儲存的檔案資訊與緩衝區儲存的檔案資訊相同，都有<k,v>鍵值對及其分割槽和索引。
在所有的MapTask任務完成後，Mr appmaster做出響應。Mr appmaster根據MapTask輸入的分割槽數確定ReduceTask的數量

之後Mr appmaster啟動相應數量的ReduceTask，並告知ReduceTask處理資料的範圍（資料分割槽），一個分割槽需要有一個ReduceTask處理資料。ReduceTask1處理partition 1的資料，ReduceTask2處理partition2的資料……
ReduceTask將MapTask中相應分割槽中的資料下載到ReduceTask本地磁碟中，並將檔案進行合併，之後再對檔案中的資料進行歸併排序
通過GroupingComparator(k,knext)方法對檔案進行分組，之後將key值相同的資料呼叫Reduce(k,v)方法，一次讀取一組
通過OutPutFormat將資料輸入到結果檔案中（預設呼叫TextOutPutFormat）。如果有多個ReduceTask，則寫入到多個輸出檔案中

Shuffle

maptask收集我們的map()方法輸出的kv對，放到記憶體緩衝區中
從記憶體緩衝區不斷溢位本地磁碟檔案，可能會溢位多個檔案
多個溢位檔案會被合併成大的溢位檔案
在溢位過程中及合併的過程中，都要呼叫partitioner進行分割槽和針對key進行排序
reducetask根據自己的分割槽號，去各個maptask機器上取相應的結果分割槽資料
reducetask會取到同一個分割槽的來自不同maptask的結果檔案，reducetask會將這些檔案再進行合併（歸併排序）
合併成大檔案後，shuffle的過程也就結束了，後面進入reducetask的邏輯運算過程（從檔案中取出一個一個的鍵值對group，呼叫使用者自定義的reduce()方法）

總結

MR流程總共分為四個階段：

submit階段：切片job.split和配置項資訊job.xml形成檔案提交到一個資源路徑，然後通過YARN啟動執行
MapTask任務處理階段：讀取切片資料、處理切片資料
Shuffle階段（MapTask任務執行結束到ReduceTask任務執行之前）：MapTask寫出資料到環形緩衝區、分割槽、排序、溢寫檔案……
ReduceTask任務處理階段：讀取環形緩衝區資料、讀取溢寫檔案資料、reduce運算邏輯、輸出結果到輸出檔案

注意：

　　Shuffle中的緩衝區大小會影響到mapreduce程式的執行效率，原則上說，緩衝區越大，磁碟io的次數越少，執行速度就越快。

　　緩衝區的大小可以通過引數調整，引數：io.sort.mb 預設100M

MapReduce 工作流程

MapReduce 工作流程以示例程式 wordcount為例 Map InputFormat InputFormat會將我們指定的輸入路徑中的檔案按照block（預設 128M）邏輯切分成若干切片（split，如果檔案不足 128M 則單獨為一個切片，如果滿了12

MapReduce工作流程

MapReduce工作流程圖流程詳解（重點） MapTask 待處理的文字通過submit()方法，獲取待處理的資料資訊，然後根據InputFormat切片方法機制，生成切片方法檔案。把切片方法檔案和資源配置檔案全部提交在資源路徑。提

MapReduce簡述、工作流程

MapReduce簡述、工作流程 MR程式設計模型之執行步驟：　　1、準備map處理的輸入資料

深入瞭解Kafka【二】工作流程及檔案儲存機制

1、Kafka工作流程 Kafka中的訊息以Topic進行分類，生產者與消費者都是面向Topic處理資料。

SpringMVC學習[01]：【介紹、工作流程、搭建、值傳遞】

內容 1.SpringMVC的介紹 2.SpringMVC的工作流程 3.SpringMVC的搭建以及配置檔案說明 4.SpringMVC值傳遞的方式

Spring cloud gateway工作流程原理解析

spring cloud gateway的包結構(在Idea 2019.3中展示) 這個包是spring-cloud-gateway-core.這裡是真正的spring-gateway的實現的地方.

redis原始碼學習之工作流程初探

目錄背景環境準備下載redis原始碼下載Visual Studio Visual Studio開啟redis原始碼啟動過程分析

http協議工作原理及工作流程

什麼是url ？ url = 協議 + 域名 + 資源路徑比如: https://www.baidu.com/index.html http : 超文字傳輸協議

kafka工作流程及檔案儲存機制

1、Kafka工作流程 kafka中訊息是以topic進行分類的，生產者生產訊息，消費者消費訊息，都是面向topic的

測試平臺開發（四）Vue工作流程詳解

Vue 是一套用於構建使用者介面的漸進式框架。與其它大型框架不同的是，Vue 被設計為可以自底向上逐層應用。Vue 的核心庫只關注檢視層，不僅易於上手，還便於與第三方庫或既有專案整合。另一方面，當與現代化的工具鏈

Tomcat工作流程

必讀20遍好文章：領悟：https://www.oschina.net/question/12_52027 Tomcat：https://www.ibm.com/developerworks/cn/java/j-lo-servlet/

MapReduce全流程_分割槽_排序

1、MapReduce完成的工作流程： 2、分割槽操作（Partition分割槽） Partition分割槽案例實操

03.AOF持久化機制配置與工作流程

一、AOF持久化的配置配置檔案redis.conf，AOF持久化預設是關閉的，預設是開啟RDB持久化

02.RDB持久化配置與工作流程

一、如何配置RDB持久化機制配置檔案redis.conf save 60 1000 表示每隔60s，檢查如果有超過1000個key發生了變更，那麼就生成一個新的dump.rdb檔案，就是當前redis記憶體中完整的資料快照，這個操作也被稱之為snap

CSS基礎3--工作流程及DOM

瀏覽器工作流程 1.瀏覽器載入HTML檔案 2.將HTML檔案轉化成一個DOM（Document Object Model）

來自杭州朋友的馳騁工作流程引擎問題清單

>>> 1.節點處理人固定，在編制流程時就制定好。 2.節點處理人不固定，由流程發起人或者上一步節點處理人指定好，並且候選人跟原有系統中物件的屬性有關係。

讓馳騁工作流程引擎 ccbpm使用自定義表單來實現自己的業務邏輯.

>>> 1.1.1.1: SDK表單概要說明：我們把流程引擎與表單引擎統稱為ccbpm，但是有一些使用者並不想使用表單引擎，而是用自己的表單，僅僅使用流程引擎，這樣的方式就要採用ccbpm的sdk表單開發模

回答ccflow工作流程引擎的一個朋友的常見問題

>>> 回答ccflow工作流程引擎的一個朋友的常見問題問：請問ccflow工作流引擎是什麼語言開發的啊？

關於馳騁工作流程引擎5流程資料儲存模式

>>> 資料儲存模式 CCFlow把流程資料模式分為兩種：軌跡模式與合併模式。

手把手教你如何使用馳騁工作流程引擎的表單設計器做資料提交前的表單驗證...

>>> 手把手教你如何使用馳騁工作流程引擎的表單設計器做資料提交前的表單驗證