03_MapReduce框架原理_3.6 Shuffle機制(原始碼)

阿新 • • 發佈：2021-12-22

Hadoop

6. Shuffle 機制 - (流程) 1. 什麼是Shuffle&Shuffle的作用 1. Map方法之後,Reduce方法之前的資料處理過程稱之為 Shuffle

2. 流程說明 1. MapTask 通過獲取到的切片物件和相對於的記錄讀取器 map()方法處理資料後的輸出結果(key-value) 會輸出到記憶體緩衝區 2. 當記憶體緩衝區快滿的時候,需要將緩衝區的資料用一個臨時檔案的方式儲存到磁碟這個過程叫做溢寫過程臨時檔案叫做溢寫檔案 3. 當MapTask結束後再對磁碟中所有的溢寫檔案做合併,生成最終的輸出檔案等待reduce task來拉取資料這個過程叫做 merge 4. 在溢位過程及合併過程中,都要呼叫Partitioner進行分割槽和針對key排序 5. ReduceTask 根據自己分配到的分割槽號,去各自MapTask機器上拉取相應的結果分割槽資料 6. ReduceTask 會拉取同一個分割槽的資料(來自不同MapTask的結果檔案) ReduceTask 會將這些檔案在進行合併(歸併排序) 7. ReduceTask 合併成大檔案後,Shuffle 過程也就結束了 8. ReduceTask 邏輯運算過程,遍歷相同的key,並對value做reduce操作 3. 注意事項 1. Shuffle 緩衝區的大小會影響 MapReduce程式的執行效率緩衝區越大,磁碟io的次數越少,執行速度就越快 2. 緩衝區的大小可以通過引數調整引數 : mapreduce.task.io.sort.mb 預設 100M 2. map task的輸出結果有效地傳送到reduce端

點選檢視Shuffle流程圖

![](https://img2020.cnblogs.com/blog/2018294/202112/2018294-20211222163644539-412284594.png) ![](https://img2020.cnblogs.com/blog/2018294/202112/2018294-20211222163705138-138709063.png)

03_MapReduce框架原理_3.6 Shuffle機制(原始碼)

03_MapReduce框架原理_3.6 Shuffle機制(原始碼)

03_MapReduce框架原理_3.2 Job提交流程(原始碼)

03_MapReduce框架原理_3.9 合併 Combiner(Map端合併)

03_MapReduce框架原理_3.14. MapReduce 開發總結

MapReduce框架原理--Shuffle機制

MapReduce框架原理-MapTask和ReduceTask工作機制

MapReduce04 框架原理Shuffle

Vuex框架原理與原始碼分析

JavaScript中的this原理及6種常見使用場景詳解

Spring Cloud Stream微服務訊息框架原理及例項解析

AbstractQueuedSynchronizer(AQS)抽絲剝繭深入瞭解JUC框架原理

Pytorch框架學習---（6）hook函式和CAM類啟用圖

Hadoop基礎（二十一）：Shuffle機制（二）

Hadoop基礎（二十二）：Shuffle機制（三）

10.深入k8s：排程的優先順序及搶佔機制原始碼分析

MapReduce-Shuffle機制執行解析

清晰的CSS 3媒體查詢響應式佈局，bootstrap 框架原理實戰

SSM框架原理,作用及使用方法

Redis Java Lettuce驅動框架原理解析

Python常用GUI框架原理解析彙總

03_MapReduce框架原理_3.6 Shuffle機制(原始碼)

相關推薦