Hadoop Combiner的三次測試...

阿新 • • 發佈：2020-08-21

當Client申請作業後，Resource Scheduler會進行排程，同時開啟Map Task 和Reduce Task

測試一：mapper->reducer

　　##資料量<80Mb,在mapper端不設定combiner

　　若不設定combiner，經過map之後的檔案資料將直接到達reduce

　　程式碼如下：

public void analyzeByBrowserAndEvent() throws IOException, ClassNotFoundException, InterruptedException {
        final String[] params = {
                "192.168.142.192","/tmp/test/mylog1.log","/tmp/browser2"
        };
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS",MessageFormat.format("hdfs://{0}:9000",params[0]));

        deleteOnExist(conf,params[2]);

        Job job = Job.getInstance(conf,"countByBrowserAndEvent");
        job.setMapperClass(EBMapper.class);
        job.setReducerClass(EBReducer.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job,new Path(params[1]));
        FileOutputFormat.setOutputPath(job,new Path(params[2]));

        System.out.println(job.waitForCompletion(true));
    }

　　測試結果：

結論：即使不設定combiner進行歸併排序，在reduce端也會進行一次歸併排序的過程

測試二：mapper端設定combiner

　　#資料量<80Mb

　　結果如下：

結論：當mapper端設定了combiner之後，資料的歸併與排序將在mapper端完成，而reduce的作用為落盤

測試三：mapper端設定combiner且檔案片的大小大於80Mb

　　#由於檔案大於80Mb，經過環形緩衝區後溢位的小檔案數量將至少2個

　　結果如下：

發現在設定了combiner之後，reduce端還是會進行一次歸併，證明經過了環形緩衝區後溢位的檔案數量不為1時，歸併是不完全的

查詢資料，分析如下：

　　Combiner是在Map端被執行，共有兩個時機會被觸發：

① 從環形緩衝器溢寫分割槽檔案的時候

② 合併溢寫分割槽檔案的時候

　　第一次為檔案從環形緩衝區溢位的時候，由於環形緩衝區的預設size:100M,當到達80%就會進行溢位，對於每一個溢位的小檔案，可以進行一次歸併排序，但是對於只有一條記錄的情況，combiner將不會被觸發

　　原始碼如下：

　　第二次為合併所有的溢位分割槽檔案時，當溢位的檔案數量小於規定的數量時，亦不滿足第二次的combiner觸發條件

　　原始碼如下：

結論：本次測試，雖然設定了combiner，但是隻能滿足第一個觸發條件，即對每一個溢位的檔案進行了歸併，但是當合並所有的溢位分割槽檔案時，並沒有進行第二次合併

參考部落格：https://www.iteye.com/blog/heipark-1992419

Hadoop Combiner的三次測試...

當Client申請作業後，Resource Scheduler會進行排程，同時開啟Map Task 和Reduce Task 測試一：mapper->reducer

談談我的第三次測試經歷及總結

從17年到22年，中間經歷過兩家公司，第一家也就一年的樣子，更多的成長以及感觸還是第二家，之前一直拖著沒寫，這次總結下。

《第三次世界大戰》釋出新預告封閉測試將於本月25日開啟

今日，《第三次世界大戰》釋出了官方封閉測試預告片，遊戲封閉測試將於11月25日開啟。《第三次世界大戰》將於2022年春季正式發售。閉測預告片預告片截圖

TCP三次握手四次揮手

每次面試的時候都會多多少少聊一點TCP/IP協議，那麼你是如何理解其中的三次握手四次揮手的？

面試官，不要再問我三次握手和四次揮手

三次握手和四次揮手是各個公司常見的考點，也具有一定的水平區分度，也被一些面試官作為熱身題。很多小夥伴說這個問題剛開始回答的挺好，但是後面越回答越冒冷汗，最後就歇菜了。

利用Python的sympy包求解一元三次方程示例

環境說明：Python3.7.2+Jupyter Notebook 示例1（求解一元三次方程）： import sympy as sp# 匯入sympy包

Python實現線性插值和三次樣條插值的示例程式碼

(1)、函式 y = sin(x) (2)、資料準備 #資料準備 X=np.arange(-np.pi,np.pi,1) #定義樣本點X，從-pi到pi每次間隔1

Python實現使用者登入並且輸入錯誤三次後鎖定該使用者

實現使用者登入並且輸入錯誤三次後鎖定該使用者我的測試環境，win7，python3.5.1

OpenGL繪製三次Bezier曲線

本文例項為大家分享了OpenGL繪製三次Bezier曲線的具體程式碼，供大家參考，具體內容如下

c#程視覺化序設計（第二章第三次課）

DataReader物件 1.NET Framework資料提供程式中的DataReader類 2.DataReader物件的常用屬性

说说TCP的三次握手和四次挥手

一、传输控制协议TCP简介 1.1 简介 TCP(Transmission Control Protocol) 传输控制协议，是一种面向连接的、可靠的、基于字节流的传输层通信协议。

說說TCP的三次握手和四次揮手

一、傳輸控制協議TCP簡介 1.1 簡介 TCP(Transmission Control Protocol) 傳輸控制協議，是一種面向連線的、可靠的、基於位元組流的傳輸層通訊協議。

python 影象插值最近鄰、雙線性、雙三次例項

最近鄰： import cv2 import numpy as np def function(img): height,width,channels =img.shape emptyImage=np.zeros((2048,2048,channels),np.uint8)

CCNA-Part5 - 傳輸層，TCP 為什麼是三次握手？

傳輸層傳輸層主要的作用就是建立端到端的連線。比如電腦的微信的通訊，就需要跨越多個網路裝置（交換機和錄取）再和微信的伺服器建立連線。

TCP——三次握手和四次揮手詳解

關注微信公眾號：CodingTechWork，一起學習進步。本文主要介紹TCP連線三次握手和四次揮手的機制。

大假期第一次測試

今天算是返校第一天，進行了一次測試，分數少的可憐，也不知道該說些什麼。總感覺題目有點思路，程式碼就是寫不上來，很難受。有的就是思路錯了，T3不知道我咋想的，我居然當揹包問題做了。

詳解TCP連線的“三次握手”與“四次揮手”

一、TCP connection 客戶端與伺服器之間資料的傳送和返回的過程當中需要建立一個叫TCP connection的東西；

第三次總結

陣列的特點？陣列如果要儲存的資料個數不確定，怎麼辦？？自定義的效能差在什麼地方？？

實現三次登入

三次登入寫一個函式完成三次登入，三次不成功則登入失敗，失敗返回False，登陸成功返回True

P1024 一元三次方程求解

採用分治思想 #include<bits/stdc++.h> using namespace std; typedef long long ll; typedef unsigned long long ull;

Hadoop Combiner的三次測試...

相關推薦