2.2.10 hadoop體系之離線計算-mapreduce分散式計算-MapReduce執行機制總結
阿新 • • 發佈:2020-10-11
目錄
1.總的圖解(❤❤❤最重要❤❤❤)
Map階段總結:(重要)
reduce階段總結(重要)
shuffle過程總結(重要)
1.總的圖解
圖解:
2.Map階段
我們可以看上面這幅圖片,一個檔案被切分成不同的block,每一個block分別有個MapperTask處理,MapperTask處理其實就是在執行我們的map方法,每一個MapperTask經過處理之後,進入shuffle階段,shuffle階段可以對我們資料進一步處理。處理完成之後交給後面的ReduceTask,ReduceTask執行我們的reduce方法,拿到資料之後,ReduceTask再一次對資料進一步處理,每個ReduceTask會產生一個結果檔案,檔案以part開頭。
Map階段總結:
總結:
詳細步驟:
可配置的引數:
3.Reduce階段
reduce階段圖示:
reduce階段總結
詳細步驟:
4.shuffle過程
map 階段處理的資料如何傳遞給 reduce 階段,是 MapReduce 框架中最關鍵的一個流 程,這個流程就叫 shuffle。
shuffle: 洗牌、發牌 ——(核心機制:資料分割槽,排序,分組,規約,合併等過程)。
shuffle中,分割槽、規約、排序在map階段,排序/分組在reduce階段
shuffle過程圖示
shuffle過程總結
shuffle 是 Mapreduce 的核心,它分佈在 Mapreduce 的 map 階段和 reduce 階段。一般 把從 Map 產生輸出開始到 Reduce 取得資料作為輸入之前的過程稱作 shuffle。