MapReduce之Shuffle詳解

阿新 • • 發佈：2020-07-15

Hadoop原生的計算框架MapReduce，簡單概括一下：程序量級很重，啟動很慢，但能承載的資料量很大，效率相較於Spark微批處理和Flink實時來講很慢，Shuffle任何一個寫MR同學都必須掌握的東西，說難不難，說簡單也不簡單

MapReduce程式的五個階段：

input
map
shuffle
reduce
output

我將Shuffle階段加粗了，原因很簡單，因為這裡很重要

1. 關於Shuffle過程實現的功能：

1. 分割槽：

決定當前的Key交給哪個Reducer進行處理，相同的Key則由相同的Reducer處理

預設是根據Key的Hash值，對Reduce個數取餘（原始碼如下）

public 
 int getPartition(K2 key, V2 value, int numReduceTasks) {
      return (key.hashCode() & Integer.MAX_VALUE) % numReducTasks  
}

2. 分組

將相同的Key的value進行合併
Key相等時將分到同一個組裡面
MapReduce階段，一行呼叫一次Map方法，一種Key呼叫一次Reduce

3. 排序：將Key按照字典排序

2. 關於Shuffle過程實現功能的詳細描述：

1. Map端Shuffle：

Spill：溢寫

每一個Map處理之後的結果都會進入環形緩衝區（記憶體，預設100M）(關於環形緩衝區有必要單獨瞭解一下，不詳細展開了)

分割槽：對每一條key-value進行分割槽，打標籤
排序：將相同分割槽的資料進行分割槽內排序
當環形緩衝區達到閾值的80%，將分割槽排序後的資料寫到磁碟變成檔案，最終會生成多個小檔案，

Merge合併：
1. 將spill生成的小檔案進行合併
2. 將相同分割槽的資料進行排序
（Map task結束）通知ApplicationMaster，Reduce主動過來拉取資料Reduce端Shuffle

2. Reduce端Shuffle：

啟動多個執行緒，去每臺機器上拉去屬於自己分割槽的M資料
Merge：
1. 將每個Maptask的結果屬於自己分割槽的資料進行合併
2. 將整體屬於自己分割槽的資料進行排序
分組：對相同的key的value進行合併

3. 關於MapReduce的Shuffle優化：

MapReduce Shuffle過程的優化：

Combiner：合併

在map階段提前進行了一次合併，一般來說等同於提前進行了reduce，降低reduce的壓力
不是所有的程式都適合combiner

Compress：壓縮

能大大減少磁碟和網路的IO

hadoop中設定壓縮：

hadoop checknative檢視本地支援哪些壓縮
常見的壓縮格式：snappy，lzo，lz4
修改本地支援的壓縮方式：替換lib/native

MapReduce程式可以設定壓縮的位置：

輸入
map的中間結果(需要同時指定)

mapreduce.map.output.compress
mapreduce.map.output.compress.codec=預設是DefaultCodec

reduce的輸出

mapreduce.output.fileoutputformat.compress
Mapreduce,output.fileoutputformat.compress.codec

怎麼設定壓縮：

叢集配置檔案內
設定conf物件當前程式有效
執行時指定引數： -Dmapreduce.output.fileoutputformat.compress=true ….

MapReduce之Shuffle詳解

Tomcat原理系列之六:詳解socket如何封裝成request(上)

@TOC 看原始碼雖然不能馬上提升你的編碼水平。但能讓你更好的理解程式設計。

Tomcat原理系列之七:詳解socket如何封裝成request(下)

@TOC 推薦閱讀Tomcat原理系列之二：由點到線,請求主幹對於理解本文有很多幫助。

Java之BigDecimal詳解

一、BigDecimal概述 Java在java.math包中提供的API類BigDecimal，用來對超過16位有效位的數進行精確的運算。雙精度浮點型變數double可以處理16位有效數，但在實際應用中，可能需要對更大或者更小的數進行運算和處

玩轉Redis搭建叢集之Sentinel詳解

前言 Redis作為記憶體資料庫，需要具備高可用的特點，不然如果伺服器宕機，還在記憶體裡的資料就會丟失。我們最常用的高可用方法就是搭建叢集，master機器掛了，可以讓slave機器頂上，繼續提供服務。但是Redis叢集是

Python資料儲存之 h5py詳解

1、Python資料儲存（壓縮）（1）numpy.save,numpy.savez,scipy.io.savemat numpy和scipy內建的資料儲存方式。

C++11 併發指南之Lock 詳解

在《 C++11 併發指南三(std::mutex 詳解) 》一文中我們主要介紹了 C++11 標準中的互斥量(Mutex)，並簡單介紹了一下兩種鎖型別。本節將詳細介紹一下 C++11 標準的鎖型別。

Go語言學習之goroutine詳解

什麼是goroutine？ Goroutine是建立線上程之上的輕量級的抽象。它允許我們以非常低的代價在同一個地址空間中並行地執行多個函式或者方法。相比於執行緒，它的建立和銷燬的代價要小很多，並且它的排程是獨立於執行緒的

Python任務排程利器之APScheduler詳解

任務排程應用場景所謂的任務排程是指安排任務的執行計劃，即何時執行，怎麼執行等。在現實專案中經常出現它們的身影；特別是資料類專案，比如實時統計每5分鐘網站的訪問量，就需要每5分鐘定時從日誌資料分析訪問量

Go語言庫系列之dotsql詳解

導讀：能單獨拎出SQL檔案的某一行或幾行執行，是不是非常有趣？今天我們來介紹一下這個有意思的庫--dotsql。

python資料分析工具之 matplotlib詳解

不論是資料探勘還是數學建模，都免不了資料視覺化的問題。對於 Python 來說，matplotlib 是最著名的繪相簿，它主要用於二維繪圖，當然也可以進行簡單的三維繪圖。它不但提供了一整套和 Matlab 相似但更為豐富的命令，

JDK13的新特性之AppCDS詳解

簡介 AppCDS的全稱是Application Class-Data Sharing。主要是用來在不同的JVM中共享Class-Data資訊，從而提升應用程式的啟動速度。

JDK12的新特性之CompactNumberFormat詳解

簡介 JDK12引入了新的格式化數字的類叫做CompactNumberFormat。主要方便我們對很長的數字進行簡寫。比如1000可以簡寫為1K或者1 thousand。

vue元件系列之TagsInput詳解

簡介 TagsInput 是一種可編輯的輸入框，通過回車或者分號來分割每個標籤，用回退鍵刪除上一個標籤。用 vue 來實現還是比較簡單的。

C++11智慧指標之weak_ptr詳解

如題，我們今天要講的是 C++11 引入的三種智慧指標中的：weak_ptr。在學習 weak_ptr 之前最好對 shared_ptr 有所瞭解。如果你還不知道 shared_ptr 是何物，可以看看另一篇文章：

Vue初始化中的選項合併之initInternalComponent詳解

今天給大家分享Vue初始化中的選項合併之initInternalComponent的相關知識，具體程式碼如下所示：

Java多執行緒之volatile詳解

本文目錄從多執行緒交替列印A和B開始 Java 記憶體模型中的可見性、原子性和有序性

Quartz.Net系列（九）：Trigger之DailyTimeIntervalScheduleBuilder詳解

1.介紹中文意義就是每日時間間隔計劃生成 2.API講解 (1)WithInterval、WithIntervalInHours、WithIntervalInMinutes、WithIntervalInSeconds

Java多執行緒之synchronized詳解

目錄 synchronized簡介同步的原理物件頭與鎖的實現鎖的優化與升級 Monitor Record 鎖的對比

PHP之Trait詳解轉

php從以前到現在一直都是單繼承的語言，無法同時從兩個基類中繼承屬性和方法，為了解決這個問題，php出了Trait這個特性

MapReduce之Shuffle詳解

1. 關於Shuffle過程實現的功能：

2. 關於Shuffle過程實現功能的詳細描述：

3. 關於MapReduce的Shuffle優化：

相關推薦