MapReduce入門案例之wordcount（計算單詞出現次數）

阿新 • • 發佈：2021-08-04

MR的wordcount的練習就相當於java的helloworld一樣

學習前提：

JAVA基礎：資料型別、方法、面向物件、反射等等（看懂語法）
maven（處理依賴、打包）
Hadoop-HDFS的儲存原理（看懂叢集架構、block等）
Hadoop-MapReduce的執行原理（看懂流程）
Linux （shell操作）

一共要定義3個類，

Map類（定義Map階段怎麼處理）
Reduce類(定義Reduce階段怎麼處理)
JobMain主類（定義整個MapReduce處理流程，見下）

準備資料

hello,world,hadoop
hive,sqoop,flume,hello
kitty,tom,jerry,world
hadoop

儲存成.txt檔案

MapReduce 處理資料流程：

Map階段：

輸入，讀取源資料( setInputFormatClass方法 / 得出K1,V1)
設定Mapper類( 繼承Mapper類 / K1,V1 轉換 K2,V2）

shuffle階段（直接預設，跳過）

分割槽
排序
規約
分組

Reduce階段

設定Reduce類( 繼承Reduce類 / 新K2,V2 轉換 K3,V3）
輸出，儲存結果( setOutputFormatClass方法 / 輸出K3,V3)

程式碼：

pom.xml 設定遠端倉庫、依賴、指令碼

    <!--指定倉庫-->
    <repositories>
        <repository>
            <id>cloudera</id>
            <url>https://repository.cloudera.com/artifactory/cloudera-repos/</url>
        </repository>
    </repositories>
    <!--打包方式-->
    <packaging>jar</packaging>
    <!--包-->
    <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.6.0-mr1-cdh5.14.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.6.0-cdh5.14.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.6.0-cdh5.14.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-core</artifactId>
            <version>2.6.0-cdh5.14.0</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/junit/junit -->
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.11</version>
            <scope>test</scope>
        </dependency>
        <dependency>
            <groupId>org.testng</groupId>
            <artifactId>testng</artifactId>
            <version>RELEASE</version>
        </dependency>
    </dependencies>
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                    <encoding>UTF-8</encoding>
                </configuration>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.4.3</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <minimizeJar>true</minimizeJar>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

Mapper類

1.必須繼承Mapper類並且指定好K1,V1,K2,V2對應的hadoop資料型別

2.必須重寫map方法

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
/*
 KEYIN:K1的型別
 VALUEIN:V1的型別
 KEYOUT:K2的型別
 VALUEOUT:V2的型別
 注意：
 Mapper泛型裡面要用hadoop自定義的型別(其實就是Hadoop將原本的型別加上序列化操作再封裝) 
 即org.apache.hadoop包下的資料型別
 如：long -> LongWritable;
    String-> Text
    ...
*/
public class WordCountMapper extends Mapper<LongWritable, Text, Text, LongWritable> {
    //目的：將K1,V1 轉換 K2,V2
    /*
    引數：
    key    ：K1  行偏移量
    value  : V1  每一行的文字資料
    context：上下文物件，橋樑，連線shuffle階段
     */
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        //建立物件儲存資料
        LongWritable ValueOut = new LongWritable();
        Text KeyOut = new Text();
        //1:拆分文字資料
        String[] split = value.toString().split(",");
        //2：遍歷資料，拆分，重組裝K2 ,V2
        for (String word : split) {
            KeyOut.set(word);
            ValueOut.set(1);
            //3:將K2,V2寫入上下文物件當中
            context.write(KeyOut, ValueOut);
        }
    }
}
//完畢

Reduce

（同Map類似）

1.必須繼承Reducer並指定K2,V2,K3,V3的型別

2.重寫reduce方法

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;
//雖然第二個引數即V2是集合，但是仍然使用集合裡面的元素型別作為泛型引數
public class WordCountReduce extends Reducer<Text, LongWritable, Text, LongWritable> {
    //目的：新K2,V2 轉成K3,V3，將K3,V3寫入上下文
    /*
    該類方法實現的結果如下：
    要處理的資料：
     新 K2     V2
       Hello   <1,1,1>
     -----------------  
    最終輸出結果：	
        K3     V3
        hello  3
     */
    @Override
    protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {
        long count = 0;
        //1:遍歷集合，將集合中的數字相加，得到V3
        for (LongWritable value : values) {
            count += value.get();
        }
        //2:將K3和V3寫入上下文
        context.write(key, new LongWritable(count));
    }
}

主類JobMain

（依照8個流程步驟編寫程式碼）

1.必須繼承Configured類、實現Tool介面

2.必須重寫run方法

3.main方法來啟動程式

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.net.URI;

//MapReduce需要定義主類來描述job並提交job，用來啟動MR-Job
//關鍵點1：必須要繼承 Configured 配置類，和實現 Tool 介面,注意是hadoop包下的
public class JobMain extends Configured implements Tool {

    //關鍵點2：必須重寫一個run方法來呼叫
    @Override
    public int run(String[] strings) throws Exception {
        Job job = Job.getInstance(super.getConf(), JobMain.class.getSimpleName());
        
        //打包到叢集上面執行時候，必須要新增以下配置，指定程式的main函式
        //如果打包出錯就需要加上該配置
        job.setJarByClass(JobMain.class);

        //第一步：設定輸入型別，讀取路徑，讀取輸入檔案解析成鍵值對K1,V1
        job.setInputFormatClass(TextInputFormat.class);
        
        //叢集做好hosts地址對映，不用直接些IP，寫node01即可
        TextInputFormat.addInputPath(job, new Path("hdfs://node01:8020/wordcount"));//自動讀取資料夾所有的檔案

        //本地執行（必須配置本地hadoop環境）
        /*TextInputFormat.addInputPath(job,
        			new Path("file:///F:\\mapreduce\\mrinput\\wordcount.txt"));*/

        //第二步：設定Mapper類,並設定Map階段完成之後的輸出型別(K2,V2)
        job.setMapperClass(WordCountMapper.class);//class是反射的知識
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);

        //第三、四、五、六步，預設，暫時不用寫

        //第七步：設定Reduce類，並設定Reduce階段完成之後的輸出型別(K3,V3)
        job.setReducerClass(WordCountReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        //第八步：設定輸出型別和輸出路徑
        job.setOutputFormatClass(TextOutputFormat.class);
        Path path = new Path("hdfs://node01:8020/wordcount_out");

        //本地執行（必須配置本地hadoop環境）
  		/*TextOutputFormat.setOutputPath(job, 
 							 new Path("file:///F:\\mapreduce\\mroutput"));*/

        TextOutputFormat.setOutputPath(job, path);//如果目錄已存在會報錯

        //改良：避免目錄已存在，先判斷是否存在，存在就刪除
        //連線HDFS檔案系統
        //獲取FileSystem
        FileSystem fileSystem = FileSystem.get(new URI("hdfs://node01:8020"), 
                                               new Configuration());
        //判斷目錄是否存在
        boolean hbl = fileSystem.exists(path);
        if (hbl) {
            //刪除目錄   第一個引數是刪除哪個目錄   第二個引數是否遞迴刪除
            fileSystem.delete(path, true);
        }
        //等待MR程式完成..
        boolean mrb = job.waitForCompletion(true);
        
        //返回run主類的執行結果
        return mrb ? 0 : 1;//三元運算子
    }

    //關鍵點3：由於是主啟動函式，需要建立main主函式
    public static void main(String[] args) throws Exception {
        Configuration configuration = new Configuration();
        //本地執行，可以加入配置引數
        //configuration.set("mapreduce.framework.name", "local");
        //configuration.set("yarn.resourcemanager.hostname", "local");
        Tool tool = new JobMain();
        int run = ToolRunner.run(configuration, tool, args);
        System.exit(run);
    }
}

最後，打包，上次，執行

叢集執行：

#hadoop jar  編寫好的MR程式Jar包    主方法所在的類
hadoop jar original-mapreducedemo-1.0-SNAPSHOT.jar com.yh.mapreduce.JobMain

本地執行需要的環境：

下載解壓windows版Hadoop
環境變數HADOOP_HOME
Path：%HADOOP_HOME%\bin
複製bin目錄下的hadoop.dll到c:\system32目錄下
重啟

End！~

MapReduce入門案例之wordcount（計算單詞出現次數）

MR的wordcount的練習就相當於java的helloworld一樣學習前提： JAVA基礎：資料型別、方法、面向物件、反射等等（看懂語法）

spring入門案例之AOP（四）

spring入門案例之AOP（四）什麼是AOP AOP（Aspect-OrientedProgramming，面向切面程式設計），可以說是OOP（Object-Oriented Programing，面向物件程式設計）的補充和完善。OOP引入封裝、繼承和多型性等概念來建立

Spring入門案例之JDBC（五）

Spring連線資料庫的實現增刪改查資料庫連線JDBC JDBC（JavaDataBaseConnectivity，Java資料庫連線）是一種用於執行SQL語句的JavaAPI，可以為多種關係資料庫提供統一訪問，它由一組用Java語言編寫的類和介面組成。JD

Android入門教程之Activity（生命週期，啟動...）

Activity 是一個應用元件，使用者可與其提供的螢幕進行互動，以執行撥打電話、拍攝照片、傳送電子郵件或檢視地圖等操作。每個 Activity 都會獲得一個用於繪製其使用者介面的視窗。視窗通常會充滿螢幕，但也可小於螢

Elasticsearch 從入門到學會之四（索引API-索引管理）

在 Elasticsearch 中，索引可被認作一種文件的優化集合，且每個文件都是欄位的集合，欄位是包含你資料的鍵值對。

JavaWeb17-案例之ajax（Java真正的全棧開發）

案例 & ajax 一.案例 1. 生成訂單操作分析先看下訂單頁面: 分析下訂單表需要那些欄位

OpenGL ES之LUT（濾鏡基準圖）

前言 Look Up Table（簡稱LUT，查詢表)。輸入一個值，然後通過查詢表來得到一個輸出值。在調色領域中，稱為顏色查詢表，查詢表的分量為R、G、B，是一種降低GPU運算量的技術，通過將顏色值儲存在一張表中，在需要的

iOS逆向學習之二（Mac遠端操控iPhone）

SSH、OpenSSH SSH 是Secure的縮寫，意為“安全外殼協議”，是一種可以為遠端登入提供安全保障的協議

Sine之舞（遞迴/遞推）

Description 最近FJ為他的奶牛們開設了數學分析課，FJ知道若要學好這門課，必須有一個好的三角函式基本功。所以他準備和奶牛們做一個“Sine之舞”的遊戲，寓教於樂，提高奶牛們的計算能力。

python介面自動化（十九）簽名(signature)鑑權(authentication)之加密（HEX,MD5,HMAC-SHA256）

前言開放的介面為了避免被別人亂呼叫，浪費伺服器資源，這就涉及到簽名（Signature）加密了

Qt 之圖形（繪製漂亮的圓弧）

簡述綜合前面對二維繪圖的介紹，想必我們對一些基本繪圖有了深入的瞭解，下面我們來實現一些漂亮的圖形繪製。

c(++) 變長引數之整形（非字串型別類似）

0、序言　　變長引數，接觸的第一個可變長引數函式是 printf ，然後是 scanf 。他們的原型如下：

學習使用者連線性要素之連線性（附XMIND整理筆記）

內容連線性是手機app設計的首要任務之一，還有我們的電腦、平板也是一樣。在2020年的物聯網環境中，將有超過260億的新產品被聯絡在一起。為了設計一個有價值的使用者體驗，設計師必須在設計app的時候充分考

#3058. 「HNOI2019」白兔之舞（單位根反演）

題目描述 https://loj.ac/problem/3058 單位根反演因為ω太難寫了所以用w代替有\\([n|k]=\\frac{1}{n}\\sum_{i=0}^{n-1} w_n^{ik}\\)

WinCHM Pro入門及注意事項（.chm幫助檔案製作）

程式連結“http://www.softany.com/winchm/ 1:新增頁面 2.儲存檔案 3.注意名稱 4.複製內容到編輯框內

脫離 Spring 實現複雜巢狀事務，之八（MANDATORY - 要求存在事務）

>>> 本文是<實現 Spring 的事務控制>系列文章中一篇。本文假設讀者已經閱讀並理解《實現 Spring 的事務控制，之一（必要的概念）》文中所涉及的概念（當前連線、引用計數），以及資料庫

脫離 Spring 實現複雜巢狀事務，之六（NOT_SUPPORTED - 非事務方式）

脫離 Spring 實現複雜巢狀事務，之四（NESTED - 巢狀事務）

Java 執行緒池之FixedThreadPool（Java程式碼實戰-003）

import java.util.concurrent.ExecutorService; import java.util.concurrent.Executors; import java.util.concurrent.ThreadPoolExecutor;

日常練習之web（[ACTF2020 新生賽]Upload）

技術標籤：webupload 開啟題目是一個燈泡，放上去會出現上傳檔案，但是隻能上傳jpg等圖片型別的檔案

MapReduce入門案例之wordcount（計算單詞出現次數）

相關推薦