hadoop 二次排序的一些思考

阿新 • • 發佈：2018-11-10

先說一下mr的二次排序需求：

假如檔案有兩列分別為name、score，需求是先按照name排序，name相同按照score排序

資料如下：

jx 20
gj 30
jx 10
gj 15

輸出結果要求：

gj 15
gj 30
jx 10
jx 20

我們常見的實現思路是：

1. 自定義類，重寫compare()比較邏輯(先比較name,name相同比較score),這樣可以保證無論map端，還是reduce端的排序規則是我們需求的
    當然，就這道題來說可以使用組合key，name_score嗎？其實不行，主要因為score會按照字典排序
2. 我們按照key中的name做分割槽,按照需求只能有一個reduce，否則name不會全域性有序。

然後是不是就ok了呢，如果就結果來說是ok的。但是內部隱藏種種問題。
現在需求換了，我要輸出：

gj 15,30
jx 10,20

那麼按照之前的邏輯，立馬崩盤了。達不到此需求的效果。
我覺得二次排序重點考察之一就是隱藏的grouping。

grouping是做什麼的呢，她是reduce端的分組，她是決定reduce方法會被框架呼叫幾次關鍵，之前的需求之所以成功是因為grouping的compare()預設實現是迭代的前後物件==,
也就是比較物件的記憶體地址，物件不同所以就返回false，也就是不同組，這時reduce方法會被再次呼叫，而不是內部values的迭代器了。
由於reduce端的歸併排序規則(之前我們已經定義好了)，直接輸出就ok了，相當於每行資料就呼叫一次reduce方法。

但如果是第二次需求，沒有實現grouping,無法實現相同名字的分數都好分隔。
實現方式就是實現grouping，重寫compare方法，邏輯是如果名字相同就返回true。
這樣到reduce端，相同name就是reduce同組，一次reduce方法，迭代values內容就可以實現value之間的逗號分隔。

那為什麼我們剛學mr是的wordcount不用實現grouping呢？

主要是wordcount的key是string，到了reduce端相同的string內容是有字串常量池的，所以 == 會相同，這樣相同的word單詞會同組，會在同一個values迭代器累加。
如果手賤，把string 封裝成物件，並且不實現grouping，那得到的結果就不是我們想要的
會變成：
a 1
a 1
b 1
b 1
...

思考問題：

1. 一般的二次排序key如何定義？
2. grouping 是不是一定要實現，不實現可以嗎？
3. 二次排序的本質是什麼？
4. 如果以下輸出
    gj 15,30
    jx 10,20
    1). 可不可以不設定grouping
    2). key可不可以設定為name

一般自定義物件，但是如果比較的東東都是string，並且需求是字典序，那就可以用string的組合key。

如何要實現二次排序，grouping是要實現的，但是像第一種需求沒重寫grouping結果恰巧也對。

筆者認為本質：考察對mr整個資料流向的理解，還有關鍵的reduce分組理解是否深入

其實根據需求有時候不實現也可以，可以定義一個全域性中間變數，判斷當前name與上一個name是否一樣，一樣就拼接value，不一樣就write，不過中間要多定義幾個全域性臨時變數，用於資料交換，不推薦這麼使用。可以把可以key定義為name不過這樣reduce壓力較大，value(score)的排序也會在reduce記憶體中進行,資料量大也會有問題，不推薦。

hadoop 二次排序的一些思考

先說一下mr的二次排序需求：假如檔案有兩列分別為name、score，需求是先按照name排序，name相同按照score排序資料如下： jx 20 gj 30 jx 10 gj 15 輸出結果要求： gj 15 gj 30 jx 10 jx 20 我們常見的實現思路是： 1. 自

一起學Hadoop——二次排序演算法的實現

二次排序，從字面上可以理解為在對key排序的基礎上對key所對應的值value排序，也叫輔助排序。一般情況下，MapReduce框架只對key排序，而不對key所對應的值排序，因此value的排序經常是不固定的。但是我們經常會遇到同時對key和value排序的需求，例如Hadoop權威指南中的求一年的高高氣溫

hadoop 二次排序和一個java實現

需要二次排序的原因：mapreduce架構自動對對映器生成的鍵進行排序，即歸約器啟動之前，所有鍵是有序的，但是值是隨機的，二次排序指的是對值進行排序。歸約器輸入形如：，即一個key對應多個值，這些值是無序的，排序後得到有序的值，如下：其中，S按照升序或者降序排列

hadoop二次排序 (Map/Reduce中分割槽和分組的問題)

1.二次排序概念：首先按照第一欄位排序，然後再對第一欄位相同的行按照第二欄位排序，注意不能破壞第一次排序的結果。如：輸入檔案：20 21 50 51 50 52 50 53 50 54 60 51 60 53 60 52 60 56 60 57 70 58 60 61 70 54 70 55 70 56

hadoop二次排序

趁這個時候，順便把hadoop的用於比較的Writable, WritableComparable, Comprator等搞清楚。。 1.二次排序概念：首先按照第一欄位排序，然後再對第一欄位相同的行按照第二欄位排序，注意不能破壞第一次排序的結果。如：輸入檔案： 20 21 50 51

Hadoop二次排序及MapReduce處理流程例項詳解

一、概述 MapReduce框架對處理結果的輸出會根據key值進行預設的排序，這個預設排序可以滿足一部分需求，但是也是十分有限的，在我們實際的需求當中，往往有要對reduce輸出結果進行二次排序的需求。對於二次排序的實現，網路上已經有很多人分享過了，但是對二次排序的實現原理

Hadoop 二次排序實現

業務場景:通常情況下,在MR操作中到達Reduce中的key值都是按照指定的規則進行排序,在單一key的情況下一切都進行的很自然,直到我們要求資料不再單純的按key進行排序,以如下資料舉例: Key -> value: 100 -> 2

Hadoop 二次排序 Secondary Sort

mr自帶的例子中的原始碼SecondarySort，我重新寫了一下，基本沒變。這個例子中定義的map和reduce如下，關鍵是它對輸入輸出型別的定義：（java泛型程式設計） public static class Map extends Mapp

hadoop二次排序實現join

package join; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.util.Iterator; import org.apac

hadoop二次排序的原理和實現

預設情況下，Map輸出的結果會對Key進行預設的排序，但是有時候需要對Key排序的同時還需要對Value進行排序，這時候就要用到二次排序了。下面我們來說說二次排序 1、二次排序原理我們把二次排序分為以下幾個階段 Map起始階段在Map階段，使用jo

大資料技術學習筆記之Hadoop框架基礎5-Hadoop高階特性HA及二次排序思想

一、回顧 -》shuffle流程 -》input：讀取mapreduce輸入的 &nbs

Hadoop MapReduce二次排序演算法與實現之演算法解析

MapReduce二次排序的原理 1.在Mapper階段，會通過inputFormat的getSplits來把資料集分割成split public abstract class Input

Python Hadoop Mapreduce 實現Hadoop Streaming分組和二次排序

需求：公司給到一份全國各門店銷售資料，要求：1.按門店市場分類，將同一市場的門店放到一起；2.將各家門店按銷售額從大到小，再按利潤從大到小排列一需求一：按市場對門店進行分組分組(partition) Hadoop streaming框架預設情況下會以’/t

hadoop MR 二次排序

二次排序例如這樣一組氣溫資料年份溫度 2006 -20 2006 21 2007 55 2007 16 2007 33 經過reduce處理年份會自動排序但是如果要對年份和氣溫分別排序那就需要二次排序了例如年份升序對氣溫降序 2006 21 200

《資料演算法-Hadoop/Spark大資料處理技巧》讀書筆記（一）——二次排序

寫在前面：在做直播的時候有同學問Spark不是用Scala語言作為開發語言麼，的確是的，從網上查資料的話也會看到大把大把的用Scala編寫的Spark程式，但是仔細看就會發現這些用Scala寫的文章

Hadoop Mapreduce分割槽、分組、二次排序過程詳解[轉]

徐海蛟教學用途 1、MapReduce中資料流動（1）最簡單的過程： map - reduce （2）定製了partitioner以將map的結果送往指定reducer的過程：　map - partition - reduce （3）增加了在本地先進性一次reduce（優化）過程：　

Hadoop鏈式MapReduce、多維排序、倒排索引、自連線演算法、二次排序、Join效能優化、處理員工資訊Join實戰、URL流量分析、TopN及其排序、求平均值和最大最小值、資料清洗ETL、分析氣

Hadoop Mapreduce 演算法彙總第52課：Hadoop鏈式MapReduce程式設計實戰...1 第51課：Hadoop MapReduce多維排序解析與實戰...2 第50課：HadoopMapReduce倒排索引解析與實戰...3 第49課：Hado

hadoop平臺使用python編寫mapreduce二次排序小程式

接上一個博文的環境使用的是官網的專利使用資料，這裡只截取了一部分 3858241,956203 3858241,1324234 3858241,3398406 3858241,3557384 38

Hadoop和Spark分別實現二次排序

將下列資料中每個分割槽中的第一列順序排列，第二列倒序排列。 Text 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 2021 5051

Hadoop Mapreduce分割槽、分組、連線以及輔助排序（也叫二次排序）過程詳解

package com.hadoop; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import or

hadoop 二次排序的一些思考

先說一下mr的二次排序需求：

思考問題：

相關推薦