1. 程式人生 > 實用技巧 >2.2.10 hadoop體系之離線計算-mapreduce分散式計算-MapReduce執行機制總結

2.2.10 hadoop體系之離線計算-mapreduce分散式計算-MapReduce執行機制總結

目錄

1.總的圖解(❤❤❤最重要❤❤❤)

Map階段總結:(重要)

​3.Reduce階段

reduce階段總結(重要)

4.shuffle過程

shuffle過程總結(重要)

5.拓展-環形緩衝區


1.總的圖解

圖解:

2.Map階段

我們可以看上面這幅圖片,一個檔案被切分成不同的block,每一個block分別有個MapperTask處理,MapperTask處理其實就是在執行我們的map方法,每一個MapperTask經過處理之後,進入shuffle階段,shuffle階段可以對我們資料進一步處理。處理完成之後交給後面的ReduceTask,ReduceTask執行我們的reduce方法,拿到資料之後,ReduceTask再一次對資料進一步處理,每個ReduceTask會產生一個結果檔案,檔案以part開頭。

Map階段總結:

總結:

詳細步驟:

可配置的引數:


3.Reduce階段

reduce階段圖示:

reduce階段總結

詳細步驟:

4.shuffle過程

map 階段處理的資料如何傳遞給 reduce 階段,是 MapReduce 框架中最關鍵的一個流 程,這個流程就叫 shuffle。

shuffle: 洗牌、發牌 ——(核心機制:資料分割槽,排序,分組,規約,合併等過程)。

shuffle中,分割槽、規約、排序在map階段,排序/分組在reduce階段

shuffle過程圖示

shuffle過程總結

shuffle 是 Mapreduce 的核心,它分佈在 Mapreduce 的 map 階段和 reduce 階段。一般 把從 Map 產生輸出開始到 Reduce 取得資料作為輸入之前的過程稱作 shuffle。

5.拓展-環形緩衝區