學習Hadoop MapReduce與WordCount例子分析

阿新 • • 發佈：2019-02-14

/*
MapReduce框架一直圍繞著key-value這樣的資料結構，下面以官方自帶的WordCount為例子，自己分析MapReduce的工作機制。MapReduce可以分為Map和Reduce過程，
程式碼實現了兩個類，分別是繼承Mapper和Reduceer，Mapper類裡面有map介面，Reduceer類有reduce介面，對於統計單詞這個例子來說，MapReduce會把檔案以行為
拆分物件，每分析一行就會呼叫Mapper類裡面的map介面，然後map接口裡面的程式碼由程式設計師實現其邏輯，然後把map介面處理完的結果輸送給Reduceer的reduce的接
口，中間還可以插入一個combiner的介面用於對map介面的資料進行中間結果處理再丟給reduce做最終的彙總。具體流程看程式碼註釋。
*/

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

  public static class TokenizerMapper
       extends Mapper<Object, Text, Text, IntWritable>{
    /*
    Mapper他是一個模板類，Class Mapper<KEYIN,VALUEIN,KEYOUT,VALUEOUT>，
    KEYIN 輸入key的型別，VALUEIN輸入value的型別
    KEYOUT 輸出key的型別，VALUEOUT輸出value的型別
    四個型別決定了map介面的輸入與輸出型別

    比較形象地描述key，value，在map，combiner，reduce流轉的
    (input) <k1, v1> -> map -> <k2, v2> -> combine -> <k2, v2> -> reduce -> <k3, v3> (output)

    其中還有規定，就是KEY和VALUE型別必須是實現了Writeable介面的，KEY型別還需要額外實現WritableComparable介面

    通常在Mapper模板裡面，KEYIN是不需要特指定的，就用基類Object就可以了，VAULEIN指定為Text，這個Text是<pre name="code" class="java">    org.apache.hadoop.io.Text，這個Text已經滿足了實現Writeable介面的條件了，在這個例子裡面VALUE就是檔案的行內
    容，所以定義型別為Text。
    對於KEYOUT和VALUEOUT，作為輸出key型別和value型別，這裡定義為Text和IntWritable，keyout就是需要統計單詞個數
    的單詞，IntWriteable就是對應某個單詞的次數，其實這個就是一個Int型別，為了符合介面需要所以就基礎了Writeable
    Context它是一個貫通map介面<-->combiner介面<-->reduce介面的上下文資料，在map接口裡面，單詞對應次數會儲存在context
    裡面，到了reduce介面，MapReduce會把之前map的context用key對應結果集合的形式給reduce介面。
    */

    private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(Object key, Text value, Context context ) throws IOException, InterruptedException { StringTokenizer itr = new StringTokenizer(value.toString()); while (itr.hasMoreTokens()) { word.set(itr.nextToken()); context.write(word, one); } } }

    /*
    下面是對兩個檔案統計單詞呼叫map介面之後的context結果
    For the given sample input the first map emits:
    < Hello, 1>
    < World, 1>
    < Bye, 1>
    < World, 1>

    The second map emits:
    < Hello, 1>
    < Hadoop, 1>
    < Goodbye, 1>
    < Hadoop, 1>
    */


    public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> { /*
    Reduceer也是一個類模板，跟Mapper一樣需要指定KEYIN，VALUEIN，KEYOUT，VALUEOUT，
    其中KEYIN和VALUEIN必須跟Mapper的KEYOUT，VALUEOUT一一對應，因為map介面輸出的結果key->value
    就是reduce介面的輸入，只是MapReduce框架把map接口裡面相同的key變成一個key->values
    的values集合，所以在reduce接口裡面KEYIN是Text也就是單詞，VALUEOUT是IntWriteable集合的
    迭代器Interable<IntWriteable>，context就是reduce的輸出結果了

    */

    private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable<IntWritable> values, Context context ) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } }

    /*
    在例子裡面，還指定了combiner，其實cominer和reduce都是同一個介面reduce，第一次呼叫reduce介面是combiner過程，把每個檔案
    的單詞做了key->value 到 key->values的彙總，結果如下
    The output of the first map:
    < Bye, 1>
    < Hello, 1>
    < World, 2>

    The output of the second map:
    < Goodbye, 1>
    < Hadoop, 2>
    < Hello, 1>
    */


    /*
    第二次呼叫reduce介面，就是reduce的過程，把combiner處理過的中間結果做一次最終的彙總
    < Bye, 1>
    < Goodbye, 1>
    < Hadoop, 2>
    < Hello, 2>
    < World, 2>
    */

    public static void main(String[] args) throws Exception { 
        Configuration conf = new Configuration(); 
        Job job = Job.getInstance(conf, "word count"); 
        job.setJarByClass(WordCount.class); 
        job.setMapperClass(TokenizerMapper.class); 
        job.setCombinerClass(IntSumReducer.class); 
        job.setReducerClass(IntSumReducer.class); 
        job.setOutputKeyClass(Text.class); 
        job.setOutputValueClass(IntWritable.class); 
        FileInputFormat.addInputPath(job, new Path(args[0])); 
        FileOutputFormat.setOutputPath(job, new Path(args[1])); 
        System.exit(job.waitForCompletion(true) ? 0 : 1); 
    }
}

學習Hadoop MapReduce與WordCount例子分析

/* MapReduce框架一直圍繞著key-value這樣的資料結構，下面以官方自帶的WordCount為例子，自己分析MapReduce的工作機制。MapReduce可以分為Map和Reduce過程，程式碼實現了兩個類，分別是繼承Mapper和Reduceer，Map

Hadoop學習筆記之初識MapReduce以及WordCount例項分析

MapReduce簡介 MapReduce是什麼? MapReduce是一種程式設計模型，用於大規模資料集的分散式運算。 Mapreduce基本原理 1、MapReduce通俗解釋圖書館要清點圖書數量，有10個書架，管理員為了加快統計速度，找來了

Hadoop Mapreduce之WordCount實現

註意 com split gin 繼承 [] leo ring exce 1.新建一個WCMapper繼承Mapper public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritab

Hadoop自帶Sort例子分析

lan exit more double expr ogr oms lru sort /** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor lic

Hadoop MapReduce 與關係型資料庫的區別

在比較兩者的區別之前，首先應該清楚，兩者的應用場景不同，在工業工程中兩者是互相補充的角色。為什麼關係型資料庫不能通過增加磁碟的方式來擴充分析能力，而hadoop卻需要這麼做呢？原因在於，關係型資料庫主要應用於大量細粒化讀寫和更新資料的場景，而hadoop則主要用於批量讀寫

學習Hadoop——Mapreduce 細說

Mapreduce 程式設計思想 Mapper  Map-reduce的思想就是“分而治之”  Mapper負責“分”，即把複雜的任務分解為若干個“簡單的任務”執行  “簡單的任務”有幾個含義

學習Hadoop——MapReduce介紹

MapReduce是一種程式設計模型，用於大規模資料的並行運算，它極大的方便程式設計人員在不會分散式程式設計的情況下，將自己的程式執行在分散式系統上。在軟體實現是通過指定一個Map(對映)函式，把一組鍵值對對映成一組新的鍵值對，指定併發的Reduce(規約)函式，來保證所有對映的鍵值對的每一個共享相

hadoop學習（六）WordCount示例深度學習MapReduce過程（1）

花了整整一個下午（6個多小時），整理總結，也算是對這方面有一個深度的瞭解。日後可以回頭多看看。我們都安裝完Hadoop之後，按照一些案例先要跑一個WourdCount程式，來測試Hadoop安裝是否成功。在終端中用命令建立一個資料夾，簡單的

淺解MapReduce與簡單MapReduce程式出包---Hadoop學習筆記(2)

淺略理解MapReduce的概念機制是開始真正使用Hadoop開發Mapreduce程式的第一步，是一個充分條件。理解和實踐並進才能讓更多的問題暴露對理論的理解的不夠。繼續學習《Hadoop基礎教程》。 1.Map與Reduce Hado

hadoop學習之HDFS（2.5）：windows下eclipse遠端連線linux下的hadoop叢集並測試wordcount例子

windows下eclipse遠端連線linux下的hadoop叢集不像在linux下直接配置eclipse一樣方便，會出現各種各樣的問題，處處是坑，連線hadoop和執行例子時都會出現問題，而網上的

大數據學習日誌——java編寫hadoop的mapreduce實現wordcount功能

int bsp exceptio 輸入參數長度 con 服務配置參數 getc 1 package mapreduce; 2 3 import org.apache.hadoop.conf.Configuration; 4 import or

使用hadoop mapreduce分析mongodb數據

Hadoop MapReduce 官方教程 -- WordCount示例

get pre red oop hadoop apache tor ria pac Hadoop MapReduce 官方教程 -- WordCount示例： http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.h

《文獻管理與信息分析》第1講學習筆記

人類社會需要寫作文獻管理與信息分析 end 思維導圖科研職業 blog 人類社會的發展史社會的進步是一部信息儲存和傳播方式變革的歷史。為什麽社會發展會越來越快？信息傳播越來越快，傳播成本越來越低。信息零成本傳播會帶來哪些變化？信息海量增加、知識更新加快、

手動實現一個單詞統計MapReduce程序與過程原理分析

Hadoop MapReduce Java [toc] 手動實現一個單詞統計MapReduce程序與過程原理分析前言我們知道，在搭建好hadoop環境後，可以運行wordcount程序來體驗一下hadoop的功能，該程序在hadoop目錄下的share/hadoop/mapreduce目錄中

WordCount系統分析與設計作業

get 耗時任務 http 包括 port 報告文獻 test Gitee項目地址 https://gitee.com/gitdq/homework psp表 PSP2.1 PSP階段預估耗時（分鐘）實際耗時（分鐘） Planni

2018-2019-1 20189215 《文獻管理與信息分析》第一單元學習總結

科研入門生產文獻管理博客 align 效率解決教材學習內容總結 1.1 加速發展的社會信息時代的變化冪增長，日新月異。文字載體的演變：石頭、骨骼、青銅器→竹簡、皮紙、織錦→紙張、布、金屬、木材以及合成材料→磁盤、光盤、網絡。 1.2 信息社會發生的變化

2018-2019-1 20189215 《文獻管理與信息分析》第二周課程學習總結

頁面學習總結 ted 快捷提醒 inf 有一個這也單元第二周學習與搜索學習內容總結 2.1學習與搜索學習首先是一個搜索的過程。要找到合適的對象和資源。 2.2搜索引擎簡介 “搜商”：包括搜索意識和搜索能力。搜索引擎搜索的不是網絡，而是數據庫。 2.3常用

MapReduce根據WordCount分析map和Reducer原理

Mapper 階段 package com.zyd.wc; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.

運行hadoop自帶的wordcount例子程序

inpu art ces put 自帶 tput wordcount ems example 1.準備文件 [root@master ~]# cat input.txt hello java hello python hello c hello java hello js

學習Hadoop MapReduce與WordCount例子分析

相關推薦