MapReduce中shuffle過程

阿新 • • 發佈：2018-04-29

mapr 提前 bin run prope 內存 pat appdata 設置

shuffle是MapReduce的核心，map和reduce的中間過程。

Map負責過濾分發，reduce歸並整理，從map輸出到reduce輸入就是shuffle過程。

實現的功能

分區

決定當前key交給哪個reduce處理

默認：按照key的hash值對reduce的個數取余進行分區

技術分享圖片

分組

將相同key的value合並

排序

按照key對每一個keyvalue進行排序，字典排序

過程

技術分享圖片

map端shuffle

spill階段：溢寫

每一個map task處理的結果會進入環形緩沖區（內存100M）

分區

對每一條key進行分區（標上交給哪個reduce）

hadoop      1       reduce0
hive        1       reduce0
spark       1       reduce1
hadoop      1       reduce0
hbase       1       reduce1

排序

按照key排序，將相同分區的數據進行分區內排序

hadoop      1       reduce0
hadoop      1       reduce0
hive        1       reduce0
hbase       1       reduce1
spark       1       reduce1

溢寫

當整個緩沖區達到閾值80%，開始進行溢寫


將當前分區排序後的數據寫入磁盤變成一個文件file1
最終生成多個spill小文件

可以在mapred-site.xml中設置內存的大小和溢寫的閾值

在mapred-site.xml中設置內存的大小
?
　　　　<property>
?
　　　　　　<name>mapreduce.task.io.sort.mb</name>
?
　　　　　　<value>100</value>
?
　　　　</property>
?
在mapred-site.xml中設置內存溢寫的閾值　　
?
　　　　<property>
?
　　　　　　<name>mapreduce.task.io.sort.spill.percent</name>
?
　　　　　　<value>0.8</value>
?
　　　　</property>

merge:合並

將spill生成的多個小文件進行合並

排序：將相同分區的數據進行分區內排序，實現comparator比較器進行比較。最終形成一個文件。

file1
hadoop      1       reduce0
hadoop      1       reduce0
hive        1       reduce0
hbase       1       reduce1
spark       1       reduce1
?
file2
hadoop      1       reduce0
hadoop      1       reduce0
hive        1       reduce0
hbase       1       reduce1
spark       1       reduce1
?
end_file:
hadoop      1       reduce0
hadoop      1       reduce0
hadoop      1       reduce0
hadoop      1       reduce0
hive        1       reduce0
hive        1       reduce0
hbase       1       reduce1
hbase       1       reduce1
spark       1       reduce1
spark       1       reduce1

map task 結束，通知app master，app master通知reduce拉取數據

reduce端shuffle

map task1
        hadoop      1       reduce0
        hadoop      1       reduce0
        hadoop      1       reduce0
        hadoop      1       reduce0
        hive        1       reduce0
        hive        1       reduce0
        hbase       1       reduce1
        hbase       1       reduce1
        spark       1       reduce1
        spark       1       reduce1
map task2
        hadoop      1       reduce0
        hadoop      1       reduce0
        hadoop      1       reduce0
        hadoop      1       reduce0
        hive        1       reduce0
        hive        1       reduce0
        hbase       1       reduce1
        hbase       1       reduce1
        spark       1       reduce1
        spark       1       reduce1

reduce啟動多個線程通過http到每臺機器上拉取屬於自己分區的數據

reduce0：
    hadoop      1       reduce0
    hadoop      1       reduce0
    hadoop      1       reduce0
    hadoop      1       reduce0
    hadoop      1       reduce0
    hadoop      1       reduce0
    hadoop      1       reduce0
    hadoop      1       reduce0
    hive        1       reduce0
    hive        1       reduce0
    hive        1       reduce0
    hive        1       reduce0

merge:合並，將每個map task的結果中屬於自己的分區數據進行合並

排序：對整體屬於我分區的數據進行排序

分組：對相同key的value進行合並，使用comparable完成比較。

hadoop，list<1,1,1,1,1,1,1,1>
hive,list<1,1,1,1>

優化

combine

在map階段提前進行一次合並。一般等同於提前執行reduce

job.setCombinerClass(WCReduce.class);

compress

壓縮中間結果集，減少磁盤IO以及網絡IO

壓縮配置方式

1.default：所有hadoop中默認的配置項
2.site：用於自定義配置文件，如果修改以後必須重啟生效
3.conf對象配置每個程序的自定義配置
4.運行時通過參數實現用戶自定義配置
bin/yarn jar xx.jar -Dmapreduce.map.output.compress=true -Dmapreduce.map.output.compress.codec=org.apache.hadoop.io.compress.Lz4Codec main_class input_path ouput_path

查看本地庫支持哪些壓縮

bin/hadoop checknative

技術分享圖片

通過conf配置對象配置壓縮

public static void main(String[] args) {
        Configuration configuration = new Configuration();
        //配置map中間結果集壓縮
        configuration.set("mapreduce.map.output.compress","true");
        configuration.set("mapreduce.map.output.compress.codec", "org.apache.hadoop.io.compress.Lz4Codec");
        //配置reduce結果集壓縮
        configuration.set("mapreduce.output.fileoutputformat.compress","true");
        configuration.set("mapreduce.output.fileoutputformat.compress.codec", "org.apache.hadoop.io.compress.Lz4Codec");
        try {
            int status = ToolRunner.run(configuration, new MRDriver(), args);
            System.exit(status);
        } catch (Exception e) {
            e.printStackTrace();
        }
}

MapReduce中shuffle過程

mapr 提前 bin run prope 內存 pat appdata 設置 shuffle是MapReduce的核心，map和reduce的中間過程。 Map負責過濾分發，reduce歸並整理，從map輸出到reduce輸入就是shuffle過程。實現的功能分區決

一個例子讓你瞭解MapReduce中shuffle的過程

Shuffle Shuffle基本概念　　Shuffle的本義是洗牌、混洗，把一組有一定規則的資料儘量轉換成一組無規則的資料，越隨機越好。MapReduce中的Shuffle更像是洗牌的逆過程，把一組無規則的資料儘量轉換成一組具有一定

Hadoop Mapreduce的shuffle過程詳解

1、map task讀取資料時預設呼叫TextInputFormat的成員RecoreReader，RecoreReader呼叫自己的read()方法，進行逐行讀取，返回一個key、value; 2、返回的key、value交給自定義的map方法，輸出的context.write(key,value)，再交

MapReduce內部shuffle過程詳解（Combiner的使用）

Maptask呼叫一個元件FileInputFormat FileInputFormat有一個最高層的介面 --> InputFormat 我們不需要去寫自己的實現類，使用的就是內部預設的元件：TextInputFormat maptask先呼叫TextInputFormat,

Hadoop MapReduce的Shuffle過程

一、概述理解Hadoop的Shuffle過程是一個大資料工程師必須的，筆者自己將學習筆記記錄下來，以便以後方便複習檢視。二、 MapReduce確保每個reducer的輸入都是按鍵排序的。系統執行排序、將map輸出作為輸入傳給reducer的過程稱為Shuffle。 2.1 map端 map函式開始產生輸

MapReduce job Shuffle 過程的ERROR

1.錯誤描述 error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetc

MapReduce優化----Shuffle過程剖析及效能優化

MapReduce確保每個reducer的輸入都按鍵排序。 Shuffle：系統執行排序的過程—將map輸出作為輸入傳給reducer（如圖1、圖2）。圖1 圖2 如圖1、圖2所示，從map輸出到reduce輸入就是shuffle階段。但實際執行過程遠比上圖所示覆雜。 S

MapReduce中combine、partition、shuffle的作用是什麽

rgs 輸出 microsoft ted pop .com int ack 結果 http://www.aboutyun.com/thread-8927-1-1.html Mapreduce在hadoop中是一個比較難以的概念。以下須要用心

Hadoop學習之路（二十三）MapReduce中的shuffle詳解

就是多個流程 http cer 分開分享圖片數據分區 bsp 概述 1、MapReduce 中，mapper 階段處理的數據如何傳遞給 reducer 階段，是 MapReduce 框架中最關鍵的一個流程，這個流程就叫 Shuffle 2、Shuffle: 數

MapReduce-shuffle過程詳解

等待通知 10個線程數硬盤 res .sh 現在溢出 Shuffle map端 map函數開始產生輸出時，並不是簡單地將它寫到磁盤。這個過程很復雜，它利用緩沖的方式寫到內存並出於效率的考慮進行預排序。每個map任務都有一個環形內存緩沖區用於存儲任務輸出。在默認

MapReduce和spark的shuffle過程詳解

存在位置方式傳遞第一個 2個過濾之前第三方面試常見問題，必備答案。參考：https://blog.csdn.net/u010697988/article/details/70173104 mapReducehe和Spark之間的最大區別是前者較偏向於離

【MapReduce詳解及原始碼解析（一）】——分片輸入、Mapper及Map端Shuffle過程

title: 【MapReduce詳解及原始碼解析（一）】——分片輸入、Mapper及Map端Shuffle過程 date: 2018-12-03 21:12:42 tags: Hadoop categories: 大資料 toc: true 點選檢視我的部落格：Josonlee’

hadoop概念-MapReduce各個執行階段及Shuffle過程詳解

MapReduce各個執行階段（1）MapReduce框架使用InputFormat模組做Map前的預處理，比如驗證輸入的格式是否符合輸入定義；然後，將輸入檔案切分為邏輯上的多個InputSplit，InputSplit是MapReduce對檔案進行處理和運算的輸入單位

ShuffleExternalSorter 外部排序器在Shuffle過程中的設計思路剖析-Spark商業環境實戰

Spark商業環境實戰及調優進階系列 1 ShuffleExternalSorter 外部排序器 1.1 ShuffleExternalSorter 外部排序器江湖地位 ShuffleExternal

Hadoop 學習研究(四)：MapReduce shuffle過程剖詳解及引數配置調優

MapReduce簡介在Hadoop MapReduce中，框架會確保reduce收到的輸入資料是根據key排序過的。資料從Mapper輸出到Reducer接收，是一個很複雜的過程，框架

spark中shuffle的過程------不看你後悔

Spark大會上，所有的演講嘉賓都認為shuffle是最影響效能的地方，但是又無可奈何。之前去百度面試hadoop的時候，也被問到了這個問題，直接回答了不知道。這篇文章主要是沿著下面幾個問題來開展： 1、shuffle過程的劃分？ 2、shuffle的中間結果如何

MapReduce shuffle過程詳解

一、MapReduce計算模型我們知道MapReduce計算模型主要由三個階段構成：Map、shuffle、Reduce。 Map是對映，負責資料的過濾分法，將原始資料轉化為鍵值對；Reduce是合併，將具有相同key值的value進行處理後再輸出新的鍵值

MapReduce階段原始碼分析以及shuffle過程詳解

MapReducer工作流程圖： 1. MapReduce階段原始碼分析 1）客戶端提交原始碼分析解釋： - 判斷是否列印日誌 - 判斷是否使用新的API，檢查連線 - 在檢查連線時，檢查輸入輸出路徑，計算切片，將jar、配置檔案複製到HDFS - 計算切片時，計算最小切片數（預設為1

MapReduce階段源碼分析以及shuffle過程詳解

不同小文件需要因此輸入輸出 map 定義 shu mas MapReducer工作流程圖： 1. MapReduce階段源碼分析 1）客戶端提交源碼分析解釋： - 判斷是否打印日誌 - 判斷是否使用新的API，檢

MapReduce程式設計模板及shuffle過程簡介

MapReduce執行流程(7步)：作業啟動>>>作業初始化>>>任務排程(Yarn)>>>map>>>shuffle>>>reduce>>>作業完成 Map

MapReduce中shuffle過程

實現的功能

分區

分組

排序

過程

map端shuffle

spill階段：溢寫

分區

排序

溢寫

merge:合並

reduce端shuffle

優化

combine

compress

壓縮配置方式

查看本地庫支持哪些壓縮

通過conf配置對象配置壓縮

相關推薦