尚矽谷 mapreduce wordcount案例

阿新 • • 發佈：2022-03-18

1.7 MapReduce程式設計規範

使用者編寫的程式分成三個部分：Mapper、Reducer和Driver。

1.8 WordCount案例實操

1.8.1 本地測試

1）需求

在給定的文字檔案中統計輸出每一個單詞出現的總次數

（1）輸入資料

（2）期望輸出資料

atguigu 2

banzhang 1

cls 2

hadoop 1

jiao 1

ss 2

xue 1

2）需求分析

按照MapReduce程式設計規範，分別編寫Mapper，Reducer，Driver。

3）環境準備

（1）建立maven工程，MapReduceDemo

（2）在pom.xml檔案

中新增如下依賴

<groupId>org.apache.hadoop</groupId>

<artifactId>hadoop-client</artifactId>

</dependency>

<groupId>junit</groupId>

<artifactId>junit</artifactId>

</dependency>

</dependency>

</dependencies>

（2）在專案的src/main/resources

目錄下，新建一個檔案，命名為“log4j.properties”，在檔案中填入。

log4j.rootLogger=INFO, stdout

log4j.appender.stdout=org.apache.log4j.ConsoleAppender

log4j.appender.stdout.layout=org.apache.log4j.PatternLayout

log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n

log4j.appender.logfile=org.apache.log4j.FileAppender

log4j.appender.logfile.File=target/spring.log

log4j.appender.logfile.layout=org.apache.log4j.PatternLayout

log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

（3）建立包名：com.atguigu.mapreduce.wordcount

4）編寫程式

（1）編寫Mapper類

package com.atguigu.mapreduce.wordcount;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

Text k = new Text();

IntWritable v = new IntWritable(1);

@Override

protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

// 1 獲取一行

String line = value.toString();

// 2 切割

String[] words = line.split(" ");

// 3 輸出

for (String word : words) {

k.set(word);

context.write(k, v);

}

（2）編寫Reducer類

package com.atguigu.mapreduce.wordcount;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

int sum;

IntWritable v = new IntWritable();

@Override

protected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {

// 1 累加求和

sum = 0;

for (IntWritable count : values) {

sum += count.get();

}

// 2 輸出

v.set(sum);

context.write(key,v);

}

（3）編寫Driver驅動類

package com.atguigu.mapreduce.wordcount;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCountDriver {

public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

// 1 獲取配置資訊以及獲取job物件

Configuration conf = new Configuration();

Job job = Job.getInstance(conf);

// 2 關聯本Driver程式的jar

job.setJarByClass(WordCountDriver.class);

// 3 關聯Mapper和Reducer的jar

job.setMapperClass(WordCountMapper.class);

job.setReducerClass(WordCountReducer.class);

// 4 設定Mapper輸出的kv型別

job.setMapOutputKeyClass(Text.class);

job.setMapOutputValueClass(IntWritable.class);

// 5 設定最終輸出kv型別

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

// 6 設定輸入和輸出路徑

FileInputFormat.setInputPaths(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

// 7 提交job

boolean result = job.waitForCompletion(true);

System.exit(result ? 0 : 1);

}

5）本地測試

（1）需要首先配置好HADOOP_HOME變數以及Windows執行依賴

（2）在IDEA/Eclipse上執行程式

1.8.2 提交到叢集測試

叢集上測試

（1）用maven打jar包，需要新增的打包外掛依賴

<build>

<artifactId>maven-compiler-plugin</artifactId>

</configuration>

</plugin>

<artifactId>maven-assembly-plugin</artifactId>

<descriptorRef>jar-with-dependencies</descriptorRef>

</descriptorRefs>

</configuration>

<id>make-assembly</id>

<phase>package</phase>

<goals>

<goal>single</goal>

</goals>

</execution>

</executions>

</plugin>

</plugins>

</build>

注意：如果工程上顯示紅叉。在專案上右鍵->maven->Reimport重新整理即可。

（2）將程式打成jar包

（3）修改不帶依賴的jar包名稱為wc.jar，並拷貝該jar包到Hadoop叢集的/opt/module/hadoop-3.1.3路徑。

（4）啟動Hadoop叢集

[atguigu@hadoop102 hadoop-3.1.3]sbin/start-dfs.sh

[atguigu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh

（5）執行WordCount程式

[atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar wc.jar

com.atguigu.mapreduce.wordcount.WordCountDriver /user/atguigu/input /user/atguigu/output

尚矽谷 mapreduce wordcount案例

1.7 MapReduce程式設計規範使用者編寫的程式分成三個部分：Mapper、Reducer和Driver。

使用MapReduce執行WordCount案例

@ 目錄一、準備資料二、MR的程式設計規範三、程式設計步驟四、編寫程式 Mapper程式解讀

MapReduce的執行流程和程式設計規範以及簡單的WordCount案例

技術標籤：hadoopmapReduce大資料hadoopmapreduce ▶ \\blacktriangleright ▶ MapReduce程式設計規範

MapReduce入門案例之wordcount（計算單詞出現次數）

MR的wordcount的練習就相當於java的helloworld一樣學習前提： JAVA基礎：資料型別、方法、面向物件、反射等等（看懂語法）

尚矽谷-MR執行流程淺析

二、MR的核心程式設計思想 1.概念 Job(作業) :一個MR程式稱為一個Job MRAppMaster（MR任務的主節點）: 一個Job在執行時，會先啟動一個程序，這個程序為 MRAppMaster。

尚矽谷設計模式筆記-介面卡模式

Table of Contentsgenerated with DocToc 一、生活中的介面卡二、程式中的介面卡模式 2.1 基本介紹

MapReduce簡單案例

MapReduce簡單案例目錄MapReduce簡單案例案例一檔案合併和去重操作案例二實現對輸入檔案的排序案例三對給定的表格進行資訊挖掘

20200730 尚矽谷 JVM 04 - 程式計數器

04 - 程式計數器（PC 暫存器） 1 - PC Register 介紹 JVM 中的程式計數暫存器（ Program Counter Register ）中， Register 的命名源於 CPU 的暫存器，暫存器儲存指令相關的現場資訊。 CPU 只有把資料裝載到暫存器才

20200730 尚矽谷 JVM 03 - 執行時資料區概述及執行緒

03 - 執行時資料區概述及執行緒 1 - 概述記憶體是非常重要的系統資源，是硬碟和 CPU 的中間倉庫及橋樑，承載著作業系統和應用程式的實時執行。 JVM 記憶體佈局規定了 Java 在執行過程中記憶體申請、分配、管理的策

20200730 尚矽谷 JVM 02 - 類載入子系統

02 - 類載入子系統 1 - 記憶體結構概述 2 - 類載入器與累的載入過程類載入器子系統作用

20200730 尚矽谷 JVM 08 - 堆

08 - 堆 1 - 堆的核心概述一個 JVM 例項對應一個程序，執行時資料區中的方法區和堆是程序所有的，程式計數器、本地方法棧和虛擬機器棧是執行緒所有的

20200730 尚矽谷 JVM 07 - 本地方法棧

07 - 本地方法棧 Java 虛擬機器棧用於管理 Java 方法的呼叫，而本地方法棧用於管理本地方法的呼叫。

20200730 尚矽谷 JVM 13 - String Table

13 - String Table 1 - String 的基本特性 String ：字串，使用一對 "" 引起來表示。

20200730 尚矽谷 JVM 12 - 執行引擎

12 - 執行引擎 1 - 執行引擎概述執行引擎概述執行引擎是 Java 虛擬機器核心的組成部分之一。

20200730 尚矽谷 JVM 17 - 垃圾回收器

17 - 垃圾回收器 1 - GC 分類與效能指標垃圾回收器概述垃圾收集器沒有在規範中進行過多的規定，可以由不同的廠商、不同版本的 JVM 來實現。

20200730 尚矽谷 JVM 16 - 垃圾回收相關概念

1 - System.gc() 的理解在預設情況下，通過 System.gc() 或者 Runtime.getRuntime().gc() 的呼叫，會顯式觸發 Full GC，同時對老年代和新生代進行回收，嘗試釋放被丟棄物件佔用的記憶體。

20200730 尚矽谷 JVM 15 - 垃圾回收相關演算法

15 - 垃圾回收相關演算法 1 - 標記階段：引用計數演算法垃圾標記階段：物件存活判斷

JAVA尚矽谷之SpringBoot從入門到精通(一)

一、Spring Boot 入門 1、Spring Boot 簡介簡化Spring應用開發的一個框架；整個Spring技術棧的一個大整合；

尚矽谷Redis學習總結

Redis簡介簡單介紹 Redis：開源、免費、非關係型資料庫、K-V資料庫、記憶體資料庫，支援持久化、事務和備份，叢集(支援16個庫)等高可用功能。並且效能極高(可以達到100000+的QPS)，易擴充套件，豐富的資料型別，所有

JAVA尚矽谷之Spring註解驅動原理

AOP註解原理實現AOP切面需要做的三步 1）將業務邏輯元件和切面類都加入到容器中，告訴Spring哪個是切面類(@Aspect)

尚矽谷 mapreduce wordcount案例

1.7 MapReduce程式設計規範

1.8 WordCount案例實操

1.8.1 本地測試

1.8.2 提交到叢集測試

相關推薦