MapReduce初級經典案例實現

1、資料去重

　　 "資料去重"主要是為了掌握和利用並行化思想來對資料進行有意義的篩選。統計大資料集上的資料種類個數、從網站日誌中計算訪問地等這些看似龐雜的任務都會涉及資料去重。下面就進入這個例項的MapReduce程式設計。

1.1 例項描述

　　對資料檔案中的資料進行去重。資料檔案中的每行都是一個數據。

　　樣例輸入如下所示：

1）file1：

2012-3-1 a

2012-3-2 b

2012-3-3 c

2012-3-4 d

2012-3-5 a

2012-3-6 b

2012-3-7 c

2012-3-3 c

2）file2：

2012-3-1 b

2012-3-2 a

2012-3-3 b

2012-3-4 d

2012-3-5 a

2012-3-6 c

2012-3-7 d

2012-3-3 c

樣例輸出如下所示：

2012-3-1 a

2012-3-1 b

2012-3-2 a

2012-3-2 b

2012-3-3 b

2012-3-3 c

2012-3-4 d

2012-3-5 a

2012-3-6 b

2012-3-6 c

2012-3-7 c

2012-3-7 d

1.2 設計思路

　　資料去重的最終目標是讓原始資料中出現次數超過一次的資料在輸出檔案

中只出現一次。我們自然而然會想到將同一個資料的所有記錄都交給一臺reduce機器，無論這個資料出現多少次，只要在最終結果中輸出一次就可以了。具體就是reduce的輸入應該以資料作為key，而對value-list則沒有要求。當reduce接收到一個<key，value-list>時就直接將key複製到輸出的key中，並將value設定成空值。

　　在MapReduce流程中，map的輸出<key，value>經過shuffle過程聚整合<key，value-list>後會交給reduce。所以從設計好的reduce輸入可以反推出map的輸出key應為資料，value任意。繼續反推，map輸出資料的key為資料，而在這個例項中每個資料代表輸入檔案中的一行內容，所以map階段要完成的任務就是在採用Hadoop預設的作業輸入方式之後，將value設定為key，並直接輸出（輸出中的value任意）。map中的結果經過shuffle過程之後交給reduce。reduce階段不會管每個key有多少個value，它直接將輸入的key複製為輸出的key，並輸出就可以了（輸出中的value被設定成空了）。

1.3 程式程式碼

程式程式碼如下所示：

package com.hebut.mr;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class Dedup {

    //map將輸入中的value複製到輸出資料的key上，並直接輸出

    public static class Map extends Mapper<Object,Text,Text,Text>{

        private static Text line=new Text();//每行資料

        //實現map函式

        public void map(Object key,Text value,Context context)

                throws IOException,InterruptedException{

            line=value;

            context.write(line, new Text(""));

        }

    }

    //reduce將輸入中的key複製到輸出資料的key上，並直接輸出

    public static class Reduce extends Reducer<Text,Text,Text,Text>{

        //實現reduce函式

        public void reduce(Text key,Iterable<Text> values,Context context)

                throws IOException,InterruptedException{

            context.write(key, new Text(""));

        }

    }

    public static void main(String[] args) throws Exception{

        Configuration conf = new Configuration();

        //這句話很關鍵

        conf.set("mapred.job.tracker", "192.168.1.2:9001");

        String[] ioArgs=new String[]{"dedup_in","dedup_out"};

     String[] otherArgs = new GenericOptionsParser(conf, ioArgs).getRemainingArgs();

     if (otherArgs.length != 2) {

     System.err.println("Usage: Data Deduplication <in> <out>");

     System.exit(2);

     }

     Job job = new Job(conf, "Data Deduplication");

     job.setJarByClass(Dedup.class);

     //設定Map、Combine和Reduce處理類

     job.setMapperClass(Map.class);

     job.setCombinerClass(Reduce.class);

     job.setReducerClass(Reduce.class);

     //設定輸出型別

     job.setOutputKeyClass(Text.class);

     job.setOutputValueClass(Text.class);

     //設定輸入和輸出目錄

     FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

     FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

     System.exit(job.waitForCompletion(true) ? 0 : 1);

     }

}

1.4 程式碼結果

1）準備測試資料

通過Eclipse下面的"DFS Locations"在"/user/hadoop"目錄下建立輸入檔案"dedup_in"資料夾（備註："dedup_out"不需要建立。）如圖1.4-1所示，已經成功建立。

圖1.4-1 建立"dedup_in" 圖1.4.2 上傳"file*.txt"

然後在本地建立兩個txt檔案，通過Eclipse上傳到"/user/hadoop/dedup_in"資料夾中，兩個txt檔案的內容如"例項描述"那兩個檔案一樣。如圖1.4-2所示，成功上傳之後。

從SecureCRT遠處檢視"Master.Hadoop"的也能證實我們上傳的兩個檔案。

檢視兩個檔案的內容如圖1.4-3所示：

圖1.4-3 檔案"file*.txt"內容

2）檢視執行結果

這時我們右擊Eclipse的"DFS Locations"中"/user/hadoop"資料夾進行重新整理，這時會發現多出一個"dedup_out"資料夾，且裡面有3個檔案，然後開啟雙其"part-r-00000"檔案，會在Eclipse中間把內容顯示出來。如圖1.4-4所示。

圖1.4-4 執行結果

此時，你可以對比一下和我們之前預期的結果是否一致。

2、資料排序

　　"資料排序"是許多實際任務執行時要完成的第一項工作，比如學生成績評比、資料建立索引等。這個例項和資料去重類似，都是先對原始資料進行初步處理，為進一步的資料操作打好基礎。下面進入這個示例。

2.1 例項描述

對輸入檔案中資料進行排序。輸入檔案中的每行內容均為一個數字，即一個數據。要求在輸出中每行有兩個間隔的數字，其中，第一個代表原始資料在原始資料集中的位次，第二個代表原始資料。

樣例輸入：

1）file1：

2

32

654

32

15

756

65223

2）file2：

5956

22

650

92

3）file3：

26

54

6

樣例輸出：

1    2

2    6

3    15

4    22

5    26

6    32

7    32

8    54

9    92

10    650

11    654

12    756

13    5956

14    65223

2.2 設計思路

　　這個例項僅僅要求對輸入資料進行排序，熟悉MapReduce過程的讀者會很快想到在MapReduce過程中就有排序，是否可以利用這個預設的排序，而不需要自己再實現具體的排序呢？答案是肯定的。

　　但是在使用之前首先需要瞭解它的預設排序規則。它是按照key值進行排序的，如果key為封裝int的IntWritable型別，那麼MapReduce按照數字大小對key排序，如果key為封裝為String的Text型別，那麼MapReduce按照字典順序對字串排序。

　　瞭解了這個細節，我們就知道應該使用封裝int的IntWritable型資料結構了。也就是在map中將讀入的資料轉化成IntWritable型，然後作為key值輸出（value任意）。reduce拿到<key，value-list>之後，將輸入的key作為value輸出，並根據value-list中元素的個數決定輸出的次數。輸出的key（即程式碼中的linenum）是一個全域性變數，它統計當前key的位次。需要注意的是這個程式中沒有配置Combiner，也就是在MapReduce過程中不使用Combiner。這主要是因為使用map和reduce就已經能夠完成任務了。

2.3 程式程式碼

程式程式碼如下所示：

package com.hebut.mr;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class Sort {

    //map將輸入中的value化成IntWritable型別，作為輸出的key

    public static class Map extends

　　　　　　　　Mapper<Object,Text,IntWritable,IntWritable>{

        private

相關推薦

MapReduce初級經典案例實現

1、資料去重　　 "資料去重"主要是為了掌握和利用並行化思想來對資料進行有意義的篩選。統計大資料集上的資料種類個數、從網站日誌中計算訪問地等這些看似龐雜的任務都會涉及資料去重。下面就進入這個例項的MapReduce程式設計。 1.1 例項描述　　

MapReduce初級案例（3）：使用MapReduce實現平均成績

當我們看到這個例子的時候，我們是否想過： mapreduce是否可以完成我們傳統開發中經常遇到的一些任務。例如排序、平均數、批量word轉換等。它和我們傳統開發有什麼不同。那麼我們可以帶著下面問題來閱讀：1.mapreduce是如何求平均值的？2.map在求平均值的作用是什

TensorFlow經典案例3:實現線性回歸

show light ima int testin cos global style finish TensorFlow實現線性回歸 #實現線性回歸 import tensorflow as tf import numpy as np import matplotlib.

遞迴經典案例漢諾塔 python實現

背景資料：漢諾塔：漢諾塔（又稱河內塔）問題是源於印度一個古老傳說的益智玩具。大梵天創造世界的時候做了三根金剛石柱子，在一根柱子上從下往上按照大小順序摞著64片黃金圓盤。大梵天命令婆羅門把圓盤從下面開始按大小順序重新擺放在另一根柱子上。並且規定，在小圓盤上不能放大圓盤，在三根柱子之間

Visual C++網路程式設計經典案例詳解第3章多執行緒與非同步套接字程式設計實現執行緒同步互斥物件使用API函式操作互斥物件

互斥物件和臨界區物件和事件物件作用一樣用於實現執行緒同步互斥物件可以線上程中使用 CreateMutex()建立並返回互斥物件原型如下 HANDLE CreateMutex( LPSECURITY_ATTIRIBUTES lpMutexAttributes,

Visual C++網路程式設計經典案例詳解第3章多執行緒與非同步套接字程式設計實現執行緒同步互斥物件程式的唯一執行

互斥物件可在程序中使用使用者在程序建立互斥物件實現程式例項唯一執行建立控制檯工程 #include<windows.h>                               //包含標頭檔案 #include<stdio.h> in

mapreduce初級案例

目錄 1.單詞統計 1.1 例項描述 1.2 設計思路 1.3 程式程式碼 2.資料去重 2.1 例項描述 2.2 設計思路 2.3 程式程式碼 3.班級學科平均分數 3.1 例項描述 3.2 設計思路 3.3 程式程式碼 1.單詞統計顧

Visual C++網路程式設計經典案例詳解第5章網頁瀏覽器製作個性化介面如何實現收藏夾功能新增訊息響應函式

使用者將網址新增到收藏夾以後便可以直接單擊選單選單中的網址進行瀏覽使用者單擊選單的訊息響應函式重要首先在CMainFrame類的標頭檔案MainFrm.h 中定義一個彈出選單的訊息響應函式程式碼如下 afx_msg void OnMenuClick(int nID); //定

redis 系列（十）java結合redis+lua 實現搶紅包經典案例

使用lua指令碼來實現一個搶紅包的過程，lua具有原子特性，可以避免資料併發時多執行緒同時操作的問題 java程式碼結合lua實現搶紅包案例單機版redis package bhz.redis01; import java.util.Random; import java

機器學習筆記：tensorflow實現卷積神經網路經典案例--識別手寫數字

從識別手寫數字的案例開始認識神經網路，並瞭解如何在tensorflow中一步步建立卷積神經網路。安裝tensorflow 資料來源 kaggle新手入門的數字識別案例，包含手寫0-9的灰度值影象的csv檔案，下載地址：https://www.

JAVA 多執行緒經典案例-生產者消費者模型【使用wait/notify實現】

生產者消費者模型實現細節生產者生產產品到公共倉庫，消費者消費公共倉庫中產品。情況一：當公共倉庫產品達到倉庫容量上限，生產者停止生產；情況二：當公共倉庫沒有產品，或達到設定的倉庫容量下限，消費者停止消費；情況三：當公共倉庫產品達到容量上限時，消費者消費一

Mapreduce之TopN案例TreeMap實現

1．需求對需求2.3輸出結果進行加工，輸出流量使用量在前10的使用者資訊（1）輸入資料

Algorithm之PrA：PrA之IP整數規劃(包括0-1整數規劃)演算法經典案例剖析+Matlab程式設計實現

Algorithm之PrA：PrA之IP整數規劃演算法經典案例剖析+Matlab程式設計實現分枝定界法對有約束條件的最優化問題（其可行解為有限數）的所有可行解空間恰當地進行系統搜尋，這就是分枝與定界內容。通常，把全部可行解空間反覆地分割為越來越小的子集，稱

Hadoop經典案例Spark實現（一）——通過採集的氣象資料分析每年的最高溫度

1、原始資料分析0067011990999991950051507004888888889999999N9+00001+99999999999999999999990067011990999991950051512004888888889999999N9+00221+9

貪心演算法的經典案例——最大整數 java實現

題目：設有n個正整數，將它們連線成一排，組成一個最大的多位整數。例如：n=3時，3個整數13，312，343，連成的最大整數為34331213。又如：n=4時，4個整數7，13，4，246，連成的最大整數為7424613。輸入：2 12 121輸出：12121 im

MapReduce之join演算法案例實現

1、需求：訂單資料表t_order：id date pid amount 1001 20150710 P0001 2 1002 20150710 P0001 3 1002 20150710 P0002 3 商品資訊表t_productid pname

JPush簡單Java服務端案例實現

服務端開發者 comm platform die spa message else 獲取數據一、激光推送準備工作 1、註冊極光推送開發者賬號，創建應用: 2、完成推送設置，填寫應用名提交生成安裝包： 3、掃碼安裝簡單的測試apk，查看應用信息會有AppKey和Mas

關於for循環的幾種經典案例

所有 log 數字 style 學習兩個方式運用得到由於for循環可以通過控制循環變量的初始值和循環結束條件來改變遍歷的區間，所以在排序或者遍歷的時候，利用for循環就比較簡單，以下是本人學習後得到的一些總結案例。 1.排序的應用 1）交換排序：通過取出的數和該數

TL認證和運作經典案例評選

部門研發性問題文化案例成功推廣推出評選評選背景： 1、TL能力模型推出一年多時間以來，各地區、部門的TL認證和運作如火如荼，中開社上已有部分案例輸出； 2、有部門在認證和運作上希望能借鑒優秀案例的經驗

sed正則經典案例（四）

sed正則經典案例sed正則經典案例（四）###修改日期格式，已知文件內容如下：原始數據：文件date.txt21/May/2017:09:29:24 +0800 22/May/2017:09:30:26 +0800 23/May/2017:09:31:56 +0800 24/May/2017:09:34:1