MapReduce端的二次排序以及對移動計算而不是移動資料的理解

阿新 • • 發佈：2019-01-20

，

1.其實MapReduce的二次排序是我們定義的sort排序會執行兩遍，第一遍是在map端執行，針對一個map任務的(當partition之後的將資料寫入到記憶體緩衝區的時候，達到記憶體緩衝區的80%的時候就會spill到disk,此時disk是作為硬碟快取的，所以我們的資料在硬碟上可以sort排序，而且在map執行完任務之後資料就不見了)，那麼當程式執行到reduce之後，reduce端shuffle首先會將各個map端的資料都抓取到reduce端的記憶體緩衝區中，等達到記憶體緩衝區的80%的時候就會溢位到硬碟，硬碟作為記憶體緩衝區，在這裡會第二次執行我們寫的sort排序，也就是二次排序！這就是有名的二次排序！

2.不要再認為sort+group是二次排序了，group的作用就是一次性將同一組資料交給一個reduce任務處理！

3.這裡需要強調的是：map任務不是隨隨便便地分配給某個TaskTracker的，這裡有個概念叫：資料本地化（Data-Local）。意思是：將map任務分配給含有該map處理的資料塊的TaskTracker上，同時將程式JAR包複製到該TaskTracker上來執行，這叫“運算移動，資料不移動”。而分配reduce任務時並不考慮資料本地！

上面也就是說，移動計算而不是移動資料實際上是針對shuffle之前的map端而言的，而不是針對reduce端而言的！

MapReduce端的二次排序以及對移動計算而不是移動資料的理解

MapReduce端的二次排序以及對移動計算而不是移動資料的理解

mapreduce 的二次排序

MapReduce的二次排序

MySQL二階段提交以及xtrabackup如何保證備份不丟失資料

Hadoop Mapreduce分割槽、分組、連線以及輔助排序（也叫二次排序）過程詳解

MapReduce程序之二次排序與多次排序

MapReduce二次排序

關於MapReduce二次排序的一點解答

Hadoop MapReduce二次排序演算法與實現之演算法解析

Python Hadoop Mapreduce 實現Hadoop Streaming分組和二次排序

結合案例講解MapReduce重要知識點 ------- 使用自定義MapReduce資料型別實現二次排序

Hadoop二次排序及MapReduce處理流程例項詳解

Hadoop Mapreduce分割槽、分組、二次排序過程詳解[轉]

mapreduce程式設計（一）－二次排序

Hadoop鏈式MapReduce、多維排序、倒排索引、自連線演算法、二次排序、Join效能優化、處理員工資訊Join實戰、URL流量分析、TopN及其排序、求平均值和最大最小值、資料清洗ETL、分析氣

MapReduce二次排序原理和實現

hadoop平臺使用python編寫mapreduce二次排序小程式

MapReduce-三次排序-曾經想不通的二次排序

Mapreduce中的自定義型別、分組與二次排序

MapReduce排序之二次排序

MapReduce端的二次排序以及對移動計算而不是移動資料的理解

相關推薦