mapreduce之combiner函式

阿新 • • 發佈：2018-12-30

一個例子說明combiner的作用：hadoop允許使用者針對map任務輸出指定一個combiner，combiner函式的輸出作為reduce的輸入

（1）假設第一個map的輸出如下：
（1950，0）//1950表示年份，0表示地方A的最高溫度
（1950，20）
（1950，10）

（2）假設第二個map的輸出如下：
（1950，25）//1950表示年份，0表示地方A的最高溫度
（1950，15）

（3）reduce函式被呼叫，輸入如下：
（1950，[0,20,10,25,15]）

（4）如果是使用combiner函式找出每個map任務輸出結果中的最高溫度。如此一來，reduce的資料如下：
（1950，[20,25]）

在job中加入combiner函式：

job.setConbinerClass(MaxTemperarureReducer.class);//在job中加入combiner函式

注：combiner的優點是可以減少map傳給reduce的資料量

下面以wordcount為例：

public class WordcountCombiner extends Reducer<Text, IntWritable, Text, IntWritable>{

	@Override
	protected void reduce(Text key, Iterable<IntWritable> 
 values, Context context) throws IOException, InterruptedException {

		int count=0;
		for(IntWritable v: values){
			
			count += v.get();
		}
		context.write(key, new IntWritable(count));	
	}
}

增加這樣一個combiner如果遇到重複率很高的資料就可以用類似字典樹的方法壓縮資料解決了，如果有10000個z，原來需要傳送10000次<z,1>的資料給reduce，現在只需要發一個<z,10000>即可，大大減小了網路傳輸的資料量，但是使用combiner一定不能影響最終結果才行。

mapreduce之combiner函式

一個例子說明combiner的作用：hadoop允許使用者針對map任務輸出指定一個combiner，combiner函式的輸出作為reduce的輸入（1）假設第一個map的輸出如下：（1950，0）//1950表示年份，0表示地方A的最高溫度（1950，20）（1950，10）

MapReduce程序之combiner規約

大數據 Hadoop MapReduce Combiner Java [toc] MapReduce程序之combiner規約前言前面的wordcount程序，shuffle階段的數據都是<hello, [1, 1, 1]>這種類型的（可以查看程序的輸出）

Hadoop學習之路（十八）MapReduce框架Combiner分區

類型規則比較一個學習過程 key-value body 註意對combiner的理解 combiner其實屬於優化方案，由於帶寬限制，應該盡量map和reduce之間的數據傳輸數量。它在Map端把同一個key的鍵值對合並在一起並計算，計算規則與reduce一致

MapReduce程式設計之Combiner

Combiner 可以理解為本地的reducer,減少了Map Tasks輸出的資料量以及資料網路傳輸量編譯執行： hadoop jar /home/zq/lib/HDFS_Test-1.0-SNAPSHOT.jar MapReduce.CombinerAp

Hadoop實戰-MapReduce之max、min、avg統計(六)

next combine output fileinput private pub eof pri use 1、數據準備： Mike,35 Steven,40 Ken,28 Cindy,32 2、預期結果 Max　　40 Min　　 28 Avg 33 3、M

Hadoop Mapreduce之WordCount實現

註意 com split gin 繼承 [] leo ring exce 1.新建一個WCMapper繼承Mapper public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritab

MapReduce之Job工具類開發

大數據 Hadoop MapReduce Java [toc] MapReduce之Job工具類開發在MapReduce程序寫Mapper和Reducer的驅動程序時，有很多代碼都是重復性代碼，因此可以將其提取出來寫成一個工具類，後面再寫MapReduce程序時都會使用這個工具類。 Job

Mapreduce的combiner

輸出結果父類設置 .class 提高邏輯每一個 job mapred 每一個map都可能會產生大量的本地輸出，Combiner的作用就是對map端的輸出先做一次合並，以減少在map和reduce節點之間的數據傳輸量，以提高網絡IO性能，是MapReduce的一種優化

c++筆記之CArray函式

謹以此文獻給因為我菜雞同時裝了VS2013和2017導致vs各種衝突，以至於只能重灌系統的新電腦！哭泣.... CArray屬於MFC，是一個數組模板類。MFC的陣列類支援的陣列類似於常規陣列，可以存放任何資料型別。常規陣列在使用前必須將其定義成能夠容納所有可能需要的元素，即先確定大小，而M

Shell之function函式的定義及呼叫

文章目錄 `function`函式的定義及呼叫 `function`函式的定義 `function`函式的呼叫【位置傳參】函式使用return返回值【位置傳參】函式的呼叫【陣列傳參】

Excel操作之VLOOKUP函式

1、作用　　VLOOKUP函式是Excel中的一個縱向查詢函式，它與LOOKUP函式和HLOOKUP函式屬於一類函式，在工作中都有廣泛應用，例如可以用來核對資料，多個表格之間快速匯入資料等函式功能。功能是按列查詢，最終返回該列所需查詢列序所對應的值；與之對應的HLOOKUP是按行查詢的。 2、語法規則

golang教程之一類函式

文章目錄一類函式什麼是一類函式？匿名函式使用者定義的函式型別高階函式從其他函式返回函式閉包一類函式的使用一類函式原文：https://golan

Function 之 Read_Text 函式的使用方法

在SAP系統中，有時候會有大段文字內容需要儲存.例如：銷售發貨（VL03N），在單據的概覽中，有一個［文字］項，在此處可以填寫單據的大段文字描述，那麼該內容儲存在哪裡呢？第一反應是找對應表的欄位，那麼你可能要失望了。在SAP系統中，可以供我們使用的資料庫欄位最大長度是255個文字字元（注：此處可能

地理位置geo處理之mysql函式

目前越來越多的業務都會基於LBS，附近的人，外賣位置，附近商家等等，現就討論離我最近這一業務場景的解決方案。原文：https://www.jianshu.com/p/455d0468f6d4 目前已知解決方案有: mysql 自定義函式計算

Python函式之系統函式的呼叫

全部測試程式碼 #!/usr/bin/evn python3 #_*_conding:utf-8 _*_ #系統內建函式 #1.abs():檢視絕對值，如果傳入的引數不對，會報TypeError print('-100的絕對值--',abs(-100)) #2.max():檢

學渣學python之map函式

map()函式是Python內建的高階函式，它接收一個函式f和一個list，並把函式f作用在list的每個元素上。從而得到一個f處理過的新的list返回。下面舉個栗子： 1. 例1 list [1, 2, 3, 4, 5, 6, 7] 我們要得到list的每個元素都平方後的，新的li

pytho系統學習：第二週之字串函式練習

# Author : Sunny# 雙下劃線的函式基本沒用# 定義字串name = 'i am sunny!'# 首字母大寫函式：capitalizeprint('-->capitalize:', name.capitalize())# 判斷結尾函式：endswithprint('-->endsw

matlab之sortrows()函式

sortrows()函式的格式： sortrows(A,column) A是一個矩陣，如果沒有第二個引數column，則預設按照第一列升序排列，如果遇到重複數字，則按照第二列升序排列，依次類推。。。如果存在第二個引數column，則按照指定的列排序，當指定的列有重複元素的時候，則重複元素所在的行保持原

Promise原始碼閱讀之建構函式+then過程

前言 Promise是非同步程式設計的一種方案，ES6規範中將其寫入規範標準中，統一了用法。考慮到瀏覽器的相容性，Vue專案中使用promise，就具體閱讀promise原始碼，看看內部的具體實現。具體分析通過具體例項來閱讀promise原始碼的實現，例項如下： new

C# socket 程式設計之 accept() 函式返回值解析

accept() 函式會返回一個新的套接字，這個新的套接字在伺服器端與客戶端進行通訊。伺服器端的繫結監聽是一個套接字，與客戶端通訊的是另一個套接字（accept函式返回的套接字，注意這裡不是返回客戶端的套接字，返回的套接字是新建立在伺服器上的，與客戶端收發訊息用的）下面這段程式碼，是

mapreduce之combiner函式

一個例子說明combiner的作用：hadoop允許使用者針對map任務輸出指定一個combiner，combiner函式的輸出作為reduce的輸入

相關推薦