Java編程MapReduce實現WordCount

阿新 • • 發佈：2018-09-07

submit option next cte line 出現 ask text ide

1.編寫Mapper

package net.toocruel.yarn.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;
import java.util.StringTokenizer;

/**
 * @author : 宋同煜
 * @version : 1.0
 * @createTime : 2017/4/12 14:15
 * @description :
 */
public class WordCountMapper extends Mapper<Object,Text,Text,IntWritable>{

    //對於每個單詞賦予出現頻數1，因為單詞是一個一個取出來的，所以每個數量都為1
    private final static IntWritable one = new IntWritable(1);
    //存儲取出來的一行單詞
    private Text word = new Text();

    @Override
    protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        //StringTokenizer 對輸入單詞進行切分
        StringTokenizer itr = new StringTokenizer(value.toString());
        while(itr.hasMoreTokens())
        {
            word.set(itr.nextToken());
            context.write(word, one);
        }
    }
}
123456789101112131415161718192021222324252627282930313233

2.編寫Reducer

package net.toocruel.yarn.mapreduce.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * @author : 宋同煜
 * @version : 1.0
 * @createTime : 2017/4/12 14:16
 * @description :
 */
public class WordCountReducer extends Reducer<Text,IntWritable,Text,IntWritable>{

    //存取對應單詞總頻數
    private IntWritable result = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        //計算頻數
        int sum = 0;
        for(IntWritable value:values){
            sum+=value.get();
        }
        result.set(sum);
        //寫入輸出
        context.write(key, result);
    }
}
12345678910111213141516171819202122232425262728293031

3.編寫Job提交器

package net.toocruel.yarn.mapreduce.wordcount;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * wordcount 提交器 打包在hadoop集群任意機器執行 hadoop jar  XXX.jar  net.toocruel.yarn.mapreduce.wordcount WordCount
 * @author : 宋同煜
 * @version : 1.0
 * @createTime : 2017/4/12 14:15
 * @description :
 */
public class WordCount {
    public static void main(String[] args)throws Exception {
        //初始化配置
        Configuration conf = new Configuration();
        System.setProperty("HADOOP_USER_NAME","hdfs");
        //創建一個job提交器對象
        Job job = Job.getInstance(conf);
        job.setJobName("WordCount");
        job.setJarByClass(WordCount.class);


        //設置map，reduce處理
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        //設置輸出格式處理類
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //設置輸入輸出路徑
        FileSystem.get(new Configuration()).delete(new Path("/sty/wordcount/output")); //先清空輸出目錄
        FileInputFormat.addInputPath(job, new Path("hdfs://cloudera:8020/sty/wordcount/input"));
        FileOutputFormat.setOutputPath(job, new Path("hdfs://cloudera:8020/sty/wordcount/output"));

        boolean res =  job.waitForCompletion(true);
        System.out.println("任務名稱: "+job.getJobName());
        System.out.println("任務成功: "+(res?"Yes":"No"));
        System.exit(res?0:1);
    }
}
123456789101112131415161718192021222324252627282930313233343536373839404142434445464748

4.打包

我用的maven打包，也可以Eclipse的直接導出jar包或Idea的build artifacts

hadoopSimple-1.0.jar

5.運行

在Yarn的ResourceManager 或NodeManager節點機器上運行

hadoop jar hadoopSimple-1.0.jar  net.toocruel.yarn.mapreduce.wordcount.WordCount

6.運行結果

[root@cloudera ~]# hadoop jar hadoopSimple-1.0.jar  net.toocruel.yarn.mapreduce.wordcount.WordCount
17/04/13 12:57:13 INFO client.RMProxy: Connecting to ResourceManager at cloudera/192.168.254.203:8032
17/04/13 12:57:14 WARN mapreduce.JobResourceUploader: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.
17/04/13 12:57:18 INFO input.FileInputFormat: Total input paths to process : 1
17/04/13 12:57:18 INFO mapreduce.JobSubmitter: number of splits:1
17/04/13 12:57:18 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1491999347093_0012
17/04/13 12:57:19 INFO impl.YarnClientImpl: Submitted application application_1491999347093_0012
17/04/13 12:57:19 INFO mapreduce.Job: The url to track the job: http://cloudera:8088/proxy/application_1491999347093_0012/
17/04/13 12:57:19 INFO mapreduce.Job: Running job: job_1491999347093_0012
17/04/13 12:57:32 INFO mapreduce.Job: Job job_1491999347093_0012 running in uber mode : false
17/04/13 12:57:32 INFO mapreduce.Job:  map 0% reduce 0%
17/04/13 12:57:39 INFO mapreduce.Job:  map 100% reduce 0%
17/04/13 12:57:47 INFO mapreduce.Job:  map 100% reduce 33%
17/04/13 12:57:49 INFO mapreduce.Job:  map 100% reduce 67%
17/04/13 12:57:53 INFO mapreduce.Job:  map 100% reduce 100%
17/04/13 12:57:54 INFO mapreduce.Job: Job job_1491999347093_0012 completed successfully
17/04/13 12:57:54 INFO mapreduce.Job: Counters: 49
File System Counters
FILE: Number of bytes read=162
FILE: Number of bytes written=497579
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
HDFS: Number of bytes read=233
HDFS: Number of bytes written=62
HDFS: Number of read operations=12
HDFS: Number of large read operations=0
HDFS: Number of write operations=6
Job Counters
Launched map tasks=1
Launched reduce tasks=3
Data-local map tasks=1
Total time spent by all maps in occupied slots (ms)=5167
Total time spent by all reduces in occupied slots (ms)=18520
Total time spent by all map tasks (ms)=5167
Total time spent by all reduce tasks (ms)=18520
Total vcore-seconds taken by all map tasks=5167
Total vcore-seconds taken by all reduce tasks=18520
Total megabyte-seconds taken by all map tasks=5291008
Total megabyte-seconds taken by all reduce tasks=18964480
Map-Reduce Framework
Map input records=19
Map output records=18
Map output bytes=193
Map output materialized bytes=150
Input split bytes=111
Combine input records=0
Combine output records=0
Reduce input groups=7
Reduce shuffle bytes=150
Reduce input records=18
Reduce output records=7
Spilled Records=36
Shuffled Maps =3
Failed Shuffles=0
Merged Map outputs=3
GC time elapsed (ms)=320
CPU time spent (ms)=4280
Physical memory (bytes) snapshot=805298176
Virtual memory (bytes) snapshot=11053834240
Total committed heap usage (bytes)=529731584
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=122
File Output Format Counters
Bytes Written=62
任務名稱: WordCount
任務成功: Yes

Java編程MapReduce實現WordCount

submit option next cte line 出現 ask text ide Java編程MapReduce實現WordCount 1.編寫Mapper package net.toocruel.yarn.mapreduce.wordcount; import

用Java編程如何實現合並圖片

vax pac pack ear imageio 實現 rgs awt art 　　對於很多用Java實現圖片合並的方法有很多，下面本人就分享一個用Java實現圖片合並的代碼給大家，具體如下：　　1. package com.test; 　　2. import java.

Java編程實現中英混合字符串數組按首字母排序的方法

數組鍛煉呵呵 indexof pinyin file 附件 col 翻轉在Java中對於字符串數組的排序，我們可以使用Arrays.sort（String[]）方法很便捷的進行排序。例如： ? 1 2 3 4 5 6 7 String[] arra

大數據學習日誌——java編寫hadoop的mapreduce實現wordcount功能

int bsp exceptio 輸入參數長度 con 服務配置參數 getc 1 package mapreduce; 2 3 import org.apache.hadoop.conf.Configuration; 4 import or

java編程思想第四版第9章

art new end strac override @override err private over 練習3： public class MainTest { public static void main(String args

零基礎學Java編程語言就要對癥下藥

選擇學習Java編程語言，大部分人還是沖著高薪就業去的，既然如此，就業是學習Java的最終目的，企業需要什麽我們就學什麽。熱點資訊下面小編就來分析一下企業需要什麽，這些也是我們在學習中應該著重關心的。當然，如果你是因為興趣或是喜歡才學Java編程依然可以看一下，學以致用。

Java零基礎學習Java編程語言從哪兒入手？

軟件工程是計算機領域發展最快的學科分支之一，國家非常重視軟件行業的發展。對軟件工程師人才的培養給予了非常優惠的政策。在所有軟件開發類人才的需求中對Java工程師的需求達到全部需求量的60~70%。應該說Java軟件工程師就業前景是非常好的,再加上Java軟件工程師不僅IT專業企業需要，廣大的非IT企業也

Java中線程的實現：

調用 logs 簡介表現都在 ble pri clas args Java中線程的實現：一、線程簡介：實現的兩種方式為： 1、Thread類 2、Runnable接口都在java.lang中都有共通的方法：public void run() 二、線程常用方法

【Java編程】建立一個簡單的JDBC連接-Drivers, Connection, Statement and PreparedStatement

code ava 語句 ole man for out 讀取 drop 本blog提供了一個簡單的通過JDBC驅動建立JDBC連接例程，並分別通過Statement和PreparedStatement實現對數據庫的查詢。在下一篇blog中將重點比較Statement與P

《java編程思想》：異常丟失

except 丟失 cat spa code row test java exc finally子句的不恰當使用，會造成異常的丟失，此處列舉兩種典型的錯誤使用示例。編程中要避免這種情況示例一： try｛ throw new ExceptionA(); ｝fina

『Java編程思想-第四版』第二章:一切都是對象

ack 運行時錯誤存儲數據類型自身創建引用 all 外觀 Java編程思想-第四版學習總結,此為第二章:一切都是對象. package com.w3cjava.second; @SuppressWarnings("all") pu

《java編程思想》：字符串

識別過程 this string pattern his formatter 構造輸出 1.String對象是不可變的，String類中每個看起來會修改String值的方法，實際上都是創建了一個新的String對象，來包含修改後的內容，所以在對String修改後，想打印

Java編程思想讀書筆記_第三章

str style java sys out java編程 new col println 本章提到的關於==的部分，一個完整的實驗如下： 1 class Test { 2 public static void main(String[] args)

《java編程思想》：散列的原理

col break fin nal [] str lean nbsp lin 以實現一個簡單的HashMap為例，詳細講解在code之中。簡單解釋散列原理： 1.map中內建固定大小數組，但是數組並不保存key值本身，而是保存標識key的信息 2.通過key生成數組角標，

JAVA編程不得不看的幾本經典書籍

框架 io流監聽工具 ati 現實基本原理為什麽文件　1.《java從入門到精通》（第3版）　　【內容介紹】　　本書從初學者角度出發，通過通俗易懂的語言、豐富多彩的實例，詳細介紹了使用Java語言進行程序開發應該掌握的各方面技術。全書共分28章，包括

java編程中'為了性能'一些盡量做到的地方

一句話靜態編程習慣速度 net ring 都是構建結束原文地址：http://blog.csdn.NET/m13666368773/article/details/7796924 最近的機器內存又爆滿了，出了新增機器內存外，還應該好好review一下我們的代

Java編程中必須了解十幾個代碼段

代理設置提升 itext acl 列出文件編程 ray cap 內容向文件末尾添加內容字符串有整型的相互轉換轉字符串到日期 java.util.Date = java.text.DateFormat.getDateInstance().parse(date

java 編程規範

生命期個人 har 建議分割難度術語 if語句變量 1. 應用範圍本規範應用於采用J2EE規範的項目中，所有項目中的JAVA代碼（含JSP，SERVLET，JAVABEAN，EJB）均應遵守這個規範。同時，也可作為其它項目的參考。 2. 設計類和方法

JAVA編程規範-OOP規範

同名 text equals方法編譯分隔符 tostring 方法簽名設定 enc 1.【強制】避免通過一個類的對象引用訪問此類的靜態變量或靜態方法，無謂增加編譯器解析成本，直接用類名來訪問即可。 2.【強制】所有的覆寫方法，[email protected

JAVA編程規範-註釋規範

應用進行 ava line 而不是信息 font 意義控制 1.【強制】類、類屬性、類方法的註釋必須使用 Javadoc規範，使用/**內容*/格式，不得使用//xxx方式。說明：在 IDE編輯窗口中，Javadoc方式會提示相關註釋，生成 Javadoc可以正確輸出

Java編程MapReduce實現WordCount

相關推薦