MapReduce程式設計例項之WordCount

阿新 • • 發佈：2019-01-26

1.MapReduce計算框架

這裡寫圖片描述

2.例項WordCount

這裡寫圖片描述

package org.apache.hadoop.examples;
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache 
.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapred.TextInputFormat;
import org.apache 
.hadoop.mapred.TextOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
public class WordCount {

  // This is the Mapper class
  public static class TokenizerMapper 
       extends Mapper<Object, Text, Text, IntWritable>{
    //define IntWritaable class object one
    private final static IntWritable one = new IntWritable(1 
);
    private Text word = new Text();

    public void map(Object key, Text value, Context context
                    ) throws IOException, InterruptedException {
      StringTokenizer itr = new StringTokenizer(value.toString());
      while (itr.hasMoreTokens()) {
        word.set(itr.nextToken());
        context.write(word, one);
      }
    }
  }

  public static class IntSumCombiner
       extends Reducer<Text,IntWritable,Text,IntWritable> {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values,
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();
      }
      result.set(sum);
      context.write(key, result);
    }
  }

  // This is the Reducer class
  // count of word = count set output format
  public static class IntSumReducer
       extends Reducer<Text,IntWritable,Text,Text> {

    private Text result_key= new Text();
    private Text result_value= new Text();
    private byte[] prefix;
    private byte[] suffix;

    protected void setup(Context context) {
      try {
        prefix= Text.encode("count of ").array();
        suffix= Text.encode(" =").array();
      } catch (Exception e) {
        prefix = suffix = new byte[0];
      }
    }

    public void reduce(Text key, Iterable<IntWritable> values, 
                       Context context
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();
      }

      // generate result key
      result_key.set(prefix);
      result_key.append(key.getBytes(), 0, key.getLength());
      result_key.append(suffix, 0, suffix.length);

      // generate result value
      result_value.set(Integer.toString(sum));

      context.write(result_key, result_value);
    }
  }

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    System.out.println("conf information:  "+conf.toString());
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    System.out.println("otherArgs:");
    for(int i=0;i<otherArgs.length;i++)
        System.out.println(otherArgs[i]);
    if (otherArgs.length < 2) {
      System.err.println("Usage: wordcount <in> [<in>...] <out>");
      System.exit(2);
    }

    Job job = Job.getInstance(conf, "word count");

    job.setJarByClass(WordCount.class);

    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumCombiner.class);
    job.setReducerClass(IntSumReducer.class);

    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(IntWritable.class);

    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(Text.class);

    // add the input paths as given by command line
    for (int i = 0; i < otherArgs.length - 1; ++i) {
      FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
      System.out.println("==================================");
      System.out.println(otherArgs[i]);
    }
    System.out.println(otherArgs[otherArgs.length - 1]);
    // add the output path as given by the command line
    FileOutputFormat.setOutputPath(job,
      new Path(otherArgs[otherArgs.length - 1]));

    System.exit(job.waitForCompletion(true) ? 0 : 1);
  }
}

MapReduce程式設計例項之WordCount

1.MapReduce計算框架 2.例項WordCount package org.apache.hadoop.examples; import java.io.IOException; import java.util.StringTokeni

Mapreduce程式設計1之WordCount

Mapreduce是hadoop的計算框架，對資料的處理操作都要在這裡程式設計來實現功能。這是我學習的第一個程式，也算是入門程式，相當於其他語言的helloworld，雖然還有很多不懂的地方，但相信通過以後的學習能夠懂更多東西。 WordCount 實現

大資料之Hadoop學習——動手實戰學習MapReduce程式設計例項

文章目錄一、MapReduce程式設計例項 1.自定義物件序列化需求分析報錯：Exception in thread "main" java.lang.IllegalArgumentExcept

hadoop之mapreduce程式設計例項（系統日誌初步清洗過濾處理）

剛剛開始接觸hadoop的時候，總覺得必須要先安裝hadoop叢集才能開始學習MR程式設計，其實並不用這樣，當然如果你有條件有機器那最好是自己安裝配置一個hadoop叢集，這樣你會更容易理解其工作原理。我們今天就是要給大家演示如何不用安裝hadoop直接除錯程式設計MapR

Java NIO程式設計例項之三Selector

Java NIO主要包含三個概念，即緩衝區（Buffer）、通道（Channel）和選擇器（Selector）。前面的文章已經介紹了緩衝區和通道，本文則講述最複雜的選擇器Selector。本文是本系列的第三篇文章，關於緩衝區Buffer可以看第一篇： ht

MapReduce程式設計例項（六）

package com.t.hadoop; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.hadoop.conf.Configuration; import

hadoop中使用MapReduce程式設計例項

從網上搜到的一篇hadoop的程式設計例項，對於初學者真是幫助太大了，看過以後對MapReduce程式設計基本有了大概的瞭解。看了以後受益匪淺啊，趕緊儲存起來。 1、資料去重　　 "資料去重"主要是為了掌握和利用並行化思想來對資料進行有意義的篩選

MapReduce程式設計例項（一）

前提準備： MapReduce程式設計例項：開發示例：WordCount 本文例詳細的介紹如何在整合環境中執行第一個MapReduce程式 WordCount，以及WordCount程式碼分析新建MapReduce專案： Finish生成

MapReduce程式設計例項（三）

前提準備： MapReduce程式設計例項：輸入： 2013-11-01 aa 2013-11-02 bb 2013-11-03 cc 2013-11-04 aa 2013-11-05 dd 2013-11-06 dd 2013-11-07

零基礎學Qt 4程式設計例項之Qt 樣式表的應用

下面我們以一個例項來講解樣式表的應用。這個例子取材於Qt Demo，比較複雜，有一定難度，基本上覆蓋了前面幾章講述的各種技能點，主要包括： ◆ 如何自定義Qt 的樣式表 ◆ 如何在應用程式中應用樣式表 ◆ 如何不使用樣式表來設定應用程式的樣式 ◆ 如何使用單繼承法從.ui檔案

MapReduce 程式設計模型 & WordCount 示例

學習大資料接觸到的第一個程式設計思想 MapReduce。前言之前在學習大資料的時候，很多東西很零散的做了一些筆記，但是都沒有好好去整理它們，這篇文章也是對之前的筆記的整理，或者叫輸出吧。一來是加深自己的理解，二來是希望這些東西能幫助想要學習大資料或者說正在學習大

Hadoop Mapreduce之WordCount實現

註意 com split gin 繼承 [] leo ring exce 1.新建一個WCMapper繼承Mapper public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritab

Hadoop基礎-MapReduce入門篇之編寫簡單的Wordcount測試程式碼

　　　　　　　　　　　　Hadoop基礎-MapReduce入門篇之編寫簡單的Wordcount測試程式碼　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正傑版權宣告：原創作品，謝絕轉載！否則將追究法律責任。　　　

大資料技術學習筆記之Hadoop框架基礎2-MapReduce程式設計及執行流程

一、回顧 -》hadoop的功能？ -》海量資料儲存和海量計算問題 -》分散式檔案儲存框架hdfs和

Hadoop之Wordcount流量統計入門例項

一：何為MapReduce HDFS和MapReduce是Hadoop的兩個重要核心，其中MR是Hadoop的分散式計算模型。MapReduce主要分為兩步Map步和Reduce步，引用網上流傳很廣的一個故事來解釋，現在你要統計一個圖書館裡面有多少本書，為了完成這個任務，你可以指派小明去統計書架

MapReduce部分練習使用API程式設計示例之PageRank

package com.sxt.hadoop.mr.pagerank; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs

大資料MapReduce原理之WordCount程式

Map Reduce WordCount 用IDEA建立一個maven工程wordcountmr(單詞計數程式）在pom.xml中引入Hadoop依賴包 <dependencies> <dependency>

MapReduce第一個程式之WordCount

步驟 1）建立wordcount類繼承configured，實現tool介面 2）實現mapper內部類 3）實現reducer內部類 4）設定Job相關資訊 5）提交job執行程式碼實現 * WordCount.java * com.hainiuxy

MapReduce程式設計之Combiner

Combiner 可以理解為本地的reducer,減少了Map Tasks輸出的資料量以及資料網路傳輸量編譯執行： hadoop jar /home/zq/lib/HDFS_Test-1.0-SNAPSHOT.jar MapReduce.CombinerAp

Python實現一個最簡單的MapReduce程式設計模型WordCount

MapReduce程式設計模型： Map：對映過程 Reduce：合併過程 import operator from functools import reduce # 需要處理的資料 lst = [ "Tom", "Jack",

MapReduce程式設計例項之WordCount

1.MapReduce計算框架

2.例項WordCount

相關推薦