MapReduce之全流程講解

阿新 • • 發佈：2019-01-25

週末心情好，來理下整個MapReduce的工作流程，方便記憶和理解。

hadoop四大元件之一的MapReduce分散式計算系統，和HDFS-分散式儲存系統，YARN-分散式作業系統（主要負責資源排程，相當於作業系統）三分天下，那麼我們就將資料從HDFS輸入到最後輸出到HDFS來詳細聊一聊Mapreduce的工作機制。

首先，上圖。光說不上圖都是耍流氓。資料的供給交給HDFS，資源的調配交給YARN，對資料進行鬼斧神工處理的部分就交給mapreduce了。mapreduce一般來說，可以細分為十大元件，分別為：TextInputFormat，LineRecorderReader, Mapper，shuffle（partition，sort，combiner），GroupComparator，Reducer，LineRecorderWriter，TextOutputFormat。首先我們對這是個元件做一個大概的解釋：

TextInputFormat和LineRecorderReader，輸入元件，主要負責從HDFS讀取資料，預設是一個檔案一行一行的讀取，獲取的資料進入map進行處理。

LineRecorderWriter和TextOutputFormat，輸出元件，主要負責接收reducer處理好的資料寫入DHFS，一般有多少個reduceTask就會生成幾個檔案。

Mapper，mapreduce程式設計框架中業務邏輯編寫的第一個元件。mapreduce預設接收到的資料，以每行字元的偏移量為key，\t分隔，之後的其他內容為value，一般讀取資料進行處理的時候，都需要將value進行切割，放在相應型別的陣列中進行處理。

Reducer，mapreduce程式設計框架中業務邏輯編寫的最後一個元件--自定義輸出除外。reducer接收到資料，是經過mapper處理，shuffle後，分割槽好了的資料。預設reducer會根據分割槽，key值自然排序將資料交給輸出元件，方法呼叫為 context.wirte（key，value）。

Shuffle三大元件：

1、partitioner---分割槽元件。底層呼叫getPartition方法，通過計算key得hash值與reducetast個數的商，將不同key值得鍵值對劃分到各個分割槽，可以有效的避免reduce階段出現的資料傾斜和提高整體執行效率。

2、sort---排序元件，針對分割槽之後的資料，進行一個自然順序排序。預設採用的排序演算法有快速排序和遞迴排序。

3、combiner---區域性合併元件。該元件使用者不指定的話，是不存在的。主要的用途是用來減緩reduce階段的壓力。也可以根據使用者自己的需求，進行特殊的合併。

GroupComparator---分組元件。通常處理業務邏輯的時候，會碰到既需要分組，又需要排序的情況，比如常見的求某些範圍內的TopN的問題。這時，常常需要我們根據排序規則，自定義分組，否則當排序規則與分組規則發生衝突的時候，mapreduce程式會報錯或者輸出錯誤的資料。詳細參考我的另一篇博文--mapreduce中分組排序的一些認識。

下面，我們以經典的單詞計數程式為例，來說明下這十大元件是怎麼協調工作的。

首先，mapreduce通過TextInoutFormat元件，呼叫LineRecordReader中的nextKeyValue方法，一行一行的讀取資料，當nextKeyvalue的值返回false時，表示讀取完畢。讀取的資料，會一行行的傳遞給mapper，mapper收到資料-value,以及資料行的其實偏移量-key，提供一個map方法，供開發者進行業務邏輯的編寫。在wordCount程式中，我們將獲取的每一行資料單獨提取出一個個的單詞，以單詞為key，計算單為1位值。交給shuffle階段。--自定義輸入格式請移步我的另外一篇博文--Mapreduce自定義輸入輸出元件的認識。

然後資料進入shuffle階段。以上說的是一個maptask讀取資料，處理的情況。通常情況下，是有多個maptask共同發生以上的行為，所有的maptask都會輸出一堆的鍵值對，在shuffle階段進行大洗牌。進入了shuffle階段的鍵值對資料，預設情況下，按照預設規則分割槽，自然排序，將相同的key進行合併之後，輸出到reduce階段。在這裡，大神們根據自己的需要，修改分割槽（個數，大小），指定排序（預設情況下是自然排序，並且是一定會執行），進行區域性合併（降低網路資料傳輸）都可以為所欲為。在某些業務邏輯下，涉及到同時自定義分組和排序，就需要使用者編寫自己的GroupComparator。經過shuffle階段洗牌之後的資料，每個分割槽的資料都已經排序好，相同key值的資料被分到同一個reducetask，進行進一步的合併處理。

進入到reducer階段，通過reduce方法，一般是對接收到的鍵值對的value進行邏輯處理。當然這個階段的key值也是可以根據需求進行處理的。之後資料進入通過context.wirte方法進入輸出階段。

最後，LineRecorderWriter和TextOutputFormat元件通過改寫write方法，將資料輸出到指定的位置，輸出成指定的檔案等。

因此，總體來說Mapreduce各個元件之間分工明確，各司其職。但是通過深刻的理解其內部的執行機制，又可以靈活的利用各個元件，根據自己的業務需要，隨意的進行改寫。各個元件之間的界線又變的模糊起來。真是學的越多，越對學習充滿了敬畏。吾生也有涯，而知也無涯，學無止境吧！！！

圖片來自超級大牛中琦2513！！！！

MapReduce之全流程講解

MapReduce之全流程講解

基於CTP的國內期貨程式化交易之報單流程講解

Javascript之全局變量和局部變量部分講解

MapReduce 之 Shuffle 的詳細流程

Centos7部署Django Web 全流程之終章

Centos7部署Django Web 全流程之五 Gunicorn（django+nginx+gunicorn）

Centos7部署Django Web 全流程之四 Nginx（django+nginx+gunicorn）

Centos7部署Django Web 全流程之三 SVN（django+nginx+gunicorn）

Centos7部署Django Web 全流程之二 Django（django+nginx+gunicorn）

MapReduce系列之MapReduce任務處理流程

hadoop2.7.3原始碼解析之hdfs刪除檔案全流程分析

hadoop原始碼解析之hdfs寫資料全流程分析---客戶端處理

零基礎學FPGA（十二）一步一腳印之基於FIFO的串列埠傳送機設計全流程及常見錯誤詳解

Hbase 原始碼分析之 Regionserver上的 Get 全流程

一條資料的HBase之旅，簡明HBase入門教程-Read全流程

MapReduce之reducer任務執行流程詳解

閘道器高可用之keepavlived全流程（安裝/配置/驗證/解析）

gitbook 入門教程之小白都能看懂的 Gitbook 外掛開發全流程

yii開發第一部分之執行流程

Hadoop實戰-MapReduce之max、min、avg統計(六)

MapReduce之全流程講解

相關推薦