shuffle的關鍵階段sort(Map端和Reduce端)原始碼分析

阿新 • • 發佈：2019-01-09

原始碼中有這樣一段程式碼

1. Map端排序獲取的比較器


public RawComparator getOutputKeyComparator() {
   // 獲取mapreduce.job.output.key.comparator.class，必須是RawComparator型別，如果沒設定，是null
    Class<? extends RawComparator> theClass = getClass(
      JobContext.KEY_COMPARATOR, null, RawComparator.class);
    // 如果使用者自定義了這個引數，那麼例項化使用者自定義的比較器
    if (theClass != null)
      return ReflectionUtils.newInstance(theClass, this);
   // 預設情況，使用者是沒用自定義這個引數
   //  判斷Map輸出的key，是否是WritableComparable的子類
  //   如果是，呼叫當前類的內部的Comparator!
    return WritableComparator.get(getMapOutputKeyClass().asSubclass(WritableComparable.class), this);
  }

總結：如何對感興趣的資料進行排序？

① 資料必須作為key

② 排序是框架自動排序，我們提供基於key的比較器，也就是Comparator，必須是RawComparator型別

a) 自定義類，實現RawComparator，重寫compare()

指定mapreduce.job.output.key.comparator.class為自定義的比較器型別

b）key實現WritableComparable(推薦)

③ 實質都是呼叫相關的comparaTo()方法，進行比較

2. Reduce端進行分組的比較器

RawComparator comparator = job.getOutputValueGroupingComparator();

// 獲取mapreduce.job.output.group.comparator.class，必須是RawComparator型別

// 如果沒用設定，直接獲取MapTask排序使用的比較器

// 也是比較key

public RawComparator getOutputValueGroupingComparator() {

Class<? extends RawComparator> theClass = getClass(

JobContext.GROUP_COMPARATOR_CLASS, null, RawComparator.class);

if (theClass == null) {

return getOutputKeyComparator();

}

// 如果設定了，就使用設定的比較器

return ReflectionUtils.newInstance(theClass, this);

}

shuffle的關鍵階段sort(Map端和Reduce端)原始碼分析

原始碼中有這樣一段程式碼 1. Map端排序獲取的比較器 public RawComparator getOutputKeyComparator() { // 獲取mapreduce.job.output.key.comparator.class，必須是RawComparator型別

map端和reduce端引數的調優策略

原文https://blog.csdn.net/qq_26442553/article/details/78760338 使用hadoop進行大資料運算，當資料量及其大時，那麼對MapReduce效能的調優重要性不言而喻。尤其是Shuffle過程中的引數配置對作業的總執行時間影響特別大。下面基於

hive優化之——控制hive任務中的map數和reduce數

計算 2-0 問題 tdi title ask hadoop 發現 http 一、控制hive任務中的map數: 1. 通常情況下，作業會通過input的目錄產生一個或者多個map任務。主要的決定因素有： input的文件總個數，input的文件大小，集群設

MapReduce中計算Wordcount中map端及reduce端的設定

map端的設定： package wordcount; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.io.IntWritable; import or

python中的map()函式和reduce()函式

map()函式的用法： map（函式function_name, 可迭代物件Iterable） map()函式接受兩個引數，一個是函式，一個是可迭代物件。map()函式將傳入的函式一次作用在序列的每一個元素，並把結果作為新的可迭代物件返回。舉例說明，比

python中的map()函式和reduce()函式的區別和用法介紹

咱們先從定義上來解釋一下這兩個函式的區別： ①從引數方面來講： map(func, *iterables)包含兩個引數，第一個是引數是一個函式，第二個是序列（列表或元組）。其中，函式（即map的第一個引

map函式和reduce函式、filter函式的區別

①從引數方面來講：map()函式：　　map()包含兩個引數，第一個是引數是一個函式，第二個是序列（列表或元組）。其中，函式（即map的第一個引數位置的函式）可以接收一個或多個引數。reduce()函式：reduce() 第一個引數是函式，第二個是序列（列表或元組）。但是，其

hadoop中slot簡介（map slot 和 reduce slot）

Slots是Hadoop的一個重要概念。然而在Hadoop相關論文，slots的闡述難以理解。網上關於slots的概念介紹也很少，而對於一個有經驗的Hadoop開發者來說，他們可能腦子裡已經理解了slots的真正含義，但卻難以清楚地表達出來，Hadoop初學者聽了還是雲裡

Python3.4中filter函式，map函式和reduce函式

filter函式： filter()為已知的序列的每個元素呼叫給定的布林函式，呼叫中，返回值為非零的元素將被新增至一個列表中>>> def f1(x): if x > 20: return True else: return False >&

hadoop 分片與分塊，map task和reduce task的理解

分塊：Block 　　HDFS儲存系統中，引入了檔案系統的分塊概念（block），塊是儲存的最小單位，HDFS定義其大小為64MB。與單磁碟檔案系統相似，儲存在 HDFS上的檔案均儲存為多個塊，不同的是，如果某檔案大小沒有到達64MB，該檔案也不會佔據整個塊空間。在分

【Hadoop】Hive優化之——控制hive任務中的map數和reduce數

一、控制hive任務中的map數: 1.通常情況下，作業會通過input的目錄產生一個或者多個map任務。主要的決定因素有： input的檔案總個數，input的檔案大小，叢集設定的檔案塊大小(目

Map Join和Reduce Join的區別以及程式碼實現

MapReduce Join 對兩份資料data1和data2進行關鍵詞連線是一個很通用的問題，如果資料量比較小，可以在記憶體中完成連線。如果資料量比較大，在記憶體進行連線操會發生OOM。mapreduce join可以用來解決大資料的連線。 1 思路 1.1

Hadoop如何計算map數和reduce數

Hadoop在執行一個mapreduce job之前，需要估算這個job的maptask數和reducetask數。首先分析一下job的maptask數，當一個job提交時，jobclient首先分析job被拆分的split數量，然後吧job.split檔案放置在HDFS中

Java網絡編程【Socket服務端和客戶端】

rgs .net aio highlight 如果 org author oid try Socket 編程大家都不陌生，Java 學習中必學的部分，也是 Java網絡編程核心內容之一。Java 網絡編程又包括 TCP、UDP，URL 等模塊。TCP 對應 Socket

客戶端和服務端如何使用Token和Session

cnblogs blank style ssi exception font 統一判斷用戶一、我們先解釋一下他的含義： 1、Token的引入：Token是在客戶端頻繁向服務端請求數據，服務端頻繁的去數據庫查詢用戶名和密碼並進行對比，判斷用戶名和密碼正確與否，並作

移動端和pc端事件綁定方式以及取消瀏覽器默認樣式和取消冒泡

一次註意倒序 bind 註冊 all fun top 綁定 ### 兩種綁定方式 (DOM0)1.obj.onclick = fn; (DOM2)2. ie:obj.attachEvent(事件名稱，事件函數); 1.沒有捕獲(非標準的ie 標準的ie底下有

Udp發送端和接收端

exc ont res udp lose ams send import -a //UdpReceive.java /* 定義udp的接收端。思路： 1.定義udpSocket服務。一般會監聽一個端口，事實上就是這個接收網絡應用程序定義一個數字標示。 2.定義一個數

CnetOS 6.6 rsync 的服務端和客戶端配置

rsync rsync 的服務端和客戶端配 linux centos 6.6 CentOS 6.6 rsync 的服務端和客戶端配置基本信息系統版本主機名IP地址角色CentOS 6.6backup10.0.0.10rsync服務端CentOS 6.6lamp0110.0.0.8rsync

基於thrift的java和python分別作為客戶端和服務端的調用實現

Coding except arr pes com ssa utf-8 encoding 中文亂碼前面已經實現了純java的thrift的實現。現在實現實現一下python作為客戶端和服務端的thrift的調用 1.python作為客戶端，java作為服務端 java服

tcp 服務端和客戶端程序設計

cti ida ons uint8_t 文件數據開頭 ews 信息一、實驗目的學習和掌握Linux下的TCP服務器基本原理和基本編程方法,體會TCP與UDP編程的不同，UDP編程：http://blog.csdn.net/yueguanghaidao/articl

shuffle的關鍵階段sort(Map端和Reduce端)原始碼分析

1. Map端排序獲取的比較器

2. Reduce端進行分組的比較器

相關推薦