MapReduce的分割槽

阿新 • • 發佈：2018-11-28

一：分割槽Partitioner

在MapReduce中，通過指定分割槽，mapTask會將同一個分割槽的資料傳送到同一個reduce當中進行處理。也就是把相同型別的資料，傳送到同一個reductTask去處理。

注意：分割槽需要在yarn叢集上執行，不能本地測試。

二：程式碼實現

自定義分割槽類，注意分割槽實現階段在map階段，也就是分割槽時的key為k2,v2階段


import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

/**
 * 自定義分割槽
 * 接收的引數是k2,v2
 * 多個分割槽，對應輸出的結果檔案也是多個
 */
public class Partition extends Partitioner<Text,NullWritable> {
    /**
     *
     * @param text:k2
     * @param nullWritable:v2
     * @param i
     * @return:返回分割槽數
     */
    @Override
    public int getPartition(Text text, NullWritable nullWritable, int i) {
        String s = text.toString();
        String[] split = s.split("\t");
        if(Integer.valueOf(split[5]) > 15){
            return 1;//到1號reduceTask
        }
        return 0;//到0號reduceTask
    }
}

三：設定分割槽類和reduceTask數量

//第三步：自定義分割槽

job.setPartitionerClass(Partition.class);

//設定分割槽數，也就是設定有幾個reduce，結果會產生幾個結果檔案，

//如果設定數量過大例如：2塊磚，設定了3個人ReduceTask處理，則其中有一個處理為空的內容，則返回的結果檔案有一個沒有值

//如果設定數量過小例如：2塊磚，設定了1個人ReduceTask處理，則會重複處理

job.setNumReduceTasks(2);

驅動程式：

Hadoop Mapreduce分割槽、分組、二次排序過程詳解[轉]

徐海蛟教學用途 1、MapReduce中資料流動（1）最簡單的過程： map - reduce （2）定製了partitioner以將map的結果送往指定reducer的過程：　map - partition - reduce （3）增加了在本地先進性一次reduce（優化）過程：　

Hadoop Mapreduce分割槽、分組、連線以及輔助排序（也叫二次排序）過程詳解

package com.hadoop; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import or

Hadoop Mapreduce分割槽、分組、二次排序過程詳解

這篇文章分析的特別好，耐心看下去。。1、MapReduce中資料流動（1）最簡單的過程： map - reduce （2）定製了partitioner以將map的結果送往指定reducer的過程：　map - partition - reduce （3）增加了

Hadoop完全分散式用MapReduce實現自定義排序、分割槽和分組

經過前面一段時間的學習，簡單的單詞統計已經不能實現更多的需求，就連自帶的一些函式方法等也是跟不上節奏了；加上前面一篇MapReduce的底層執行步驟的瞭解，今天學習自定義的排序、分組、分割槽相對也特別容易。認為不好理解，先參考一下前面的一篇：https://bl

MapReduce中的分割槽方法Partitioner

在進行MapReduce計算時,有時候需要把最終的輸出資料分到不同的檔案中,比如按照省份劃分的話,需要把同一個省份的資料放到一個檔案中,按照性別劃分的話,需要把同一個性別的資料放到一個檔案中.我們知道最終的輸出資料是來自Reducer任務的,那麼如果要得到多個檔案,意味著有同樣數的Reduc

MapReduce的分割槽

一：分割槽Partitioner 在MapReduce中，通過指定分割槽，mapTask會將同一個分割槽的資料傳送到同一個reduce當中進行處理。也就是把相同型別的資料，傳送到同一個reductTask去處理。注意：分割槽需要在yarn叢集上執行，不能本地測試。二：程式碼實現

MapReduce中自定義分割槽

package tq; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.mapreduce.Partitioner; public class MyPartition extends Partitioner<

MapReduce自定義分割槽partition的作用和用法

預設分割槽數量為 key.hash%reducetask的個數自定義分割槽自己定義的自定義分割槽很簡單，我們只需要繼承抽象類Partitioner，重寫getPartition方法即可，另外還要給任務設定分割槽：

大資料-Hadoop生態(17)-MapReduce框架原理-MapReduce流程,Shuffle機制,Partition分割槽

MapReduce工作流程 1.準備待處理檔案 2.job提交前生成一個處理規劃 3.將切片資訊job.split,配置資訊job.xml和我們自己寫的jar包交給yarn 4.yarn根據切片規劃計算出MapTask的數量 (以一個MapTask為例) 5.Maptask呼叫

mapreduce控制map分割槽、reduce排序實現TopN

實現一個javabean類，並實現writablecomplle介面 public class OrderBean implements WritableComparable<OrderBean>{ private String orderId; priv

用一個MapReduce輸出多個key的分割槽檔案

先看一下要處理的資料型別 19392963501,17816115082,2018-09-18 16:19:44,1431 14081946321,13094566759,2018-05-23 09:34:27,0610 13415701165,18939575060,2018-

（七）MapReduce自定義型別及分割槽演算法

需求有以下資料：電話 | 地區 | 姓名 | 使用流量三個reduce生成三個檔案，按照地區來分割槽，得到每個人使用流量的彙總結果。 13877779999 bj zs 2145 13766668888 sh ls 1028 13766668888 sh ls 9987 1387

Mapreduce三大元件之一Partitioner——實現自定義分割槽

MapReduce中資料流動（1）最簡單的過程： map - reduce （2）定製了partitioner以將map的結果送往指定reducer的過程：　map - partition - reduce （3）增加了在本地先進性一次reduce（優化）

MapReduce序列化、分割槽、排序、分組

package com.cxy.flow; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileS

MapReduce自定義排序、分割槽、分組案例

一、題目資料：由於資料量比較大，放入百度網盤中連結: https://pan.baidu.com/s/13vHZ1v7Rw2Vbb5wZrWX0cA 提取碼: 6qug 欄位說明班級學號

MapReduce資料傾斜解決方案2-- 自定義分割槽類---二次作業

資料傾斜：大量資料湧向到一個或者幾個reduce，造成大量的reduce空閒。解決資料傾斜方案2：自定義分割槽類---二次作業下面以單次統計為例進行說明: 1、DataLeanMapper1 package hadoop.lean.partitioner; i

【MapReduce】MapReduce中的分割槽方法Partitioner

在進行MapReduce計算時，有時候需要把最終的輸出資料分到不同的檔案中，比如按照省份劃分的話，需要把同一省份的資料放到一個檔案中；按照性別劃分的話，需要把同一性別的資料放到一個檔案中。我們知道最終的輸出資料是來自於Reducer任務。那麼，如果要得到多個檔案，意味著有同樣數量的Reducer任務在執行。R

MapReduce之按照ID取模分割槽輸出到不同檔案下

很多時候需要對大檔案進行分割槽最簡單的是ID的hash分割槽利用MapReduce的分割槽把檔案分割成到不同的檔案中去方便後續的計算，例如KNN可以吧預測切分成多個小片分別讀入預測 package com.mr.partition; import java.io

MapReduce的自定義排序、分割槽和分組

1.自定義排序（WritableComparable）我們寫mr程式來處理文字時，經常會將處理後的資訊封裝到我們自定義的bean中，並將bean作為map輸出的key來傳輸。上一文我用圖解分析了mr程式的基本流程。而mr程式會在處理資料的過程中（傳輸到re

mapreduce自定義分組、自定義分割槽、二次排序

mapreduce中二次排序的思想中，我們常常需要對資料的分割槽分組進行自定義，以下就介紹一下自定義分割槽分組的簡單實現 1、自定義分割槽： public class demoPartitioner<K, V> extends Partitioner<

MapReduce的分割槽

一：分割槽Partitioner

二：程式碼實現

三：設定分割槽類和reduceTask數量

相關推薦