MapReduce 實現統計單數出現次數

阿新 • • 發佈：2021-10-11

工程配置

在 windows 中配置 hadoop 及環境變數 HADOOP_
下載 winutils.exe 放入 bin目錄中
https://github.com/cdarlint/winutils
建立 maven 工程引入依賴

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-client</artifactId>
    <version>2.10.1</version>
</dependency>
<dependency>
    <groupId>org.apache.logging.log4j</groupId>
    <artifactId>log4j</artifactId>
    <version>2.14.1</version>
</dependency>

編寫 log4j 配置檔案
參考：https://www.cnblogs.com/orginly/p/14847470.html

整體思路

仿照原始碼

Map 階段

map()方法中把傳入的資料轉為 String 型別
根據空格切分出單詞
輸出<單詞,1>

package com.orginly.mapreduce.wc;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * 單詞記數
 * 繼承 Mapper 類
 * Mapper 類的泛型引數共4個 兩個key value
 * 第一對kv：map輸入引數型別 (LongWritable, Text 文字偏移量,一行文字內容)
 * 第二對kv：map輸出引數型別 (Text, IntWritable 單詞,1)
 */
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    // 提升為成員變數避免每次執行 map 方法時都建立一次物件
    private final Text word = new Text();
    private final IntWritable intWritable = new IntWritable(1);

    /**
     * map 方法的輸入引數，一行文字就呼叫一次 map 方法
     *
     * @param key     文字偏移量
     * @param value   一行文字內容
     * @param context
     */
    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {
        // 1. 接收到文字內容，轉為String 型別
        String str = value.toString();
        // 2. 按照空格進行拆分單詞
        String[] words = str.split(" ");
        // 3. 輸出<單詞,1>
        for (String s : words) {
            word.set(s);
            context.write(word, intWritable);
        }

    }
}

Reduce 階段

總各個key(單詞)的個數，遍歷 value 資料進行累加
輸出 key 的總數

package com.orginly.mapreduce.wc;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * 繼承 Reducer 類
 * 有四個泛型，兩對 kv
 * 第一對kv要與 Mapper 輸出型別一致 (Text,IntWritable)
 * 第二對kv自己設計決定輸出結果資料是什麼型別
 */
public class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable> {

    private IntWritable total = new IntWritable();

    /**
     * 假設 map 方法 執行三次得到：hello,1 hello,1 hello,1
     * reduce 的 key => hello, values => <1,1,1>
     * <p>
     * 假設 map 方法得到 hello,1 hello,1 hello,1 hadoop,1 reduce,1 hadoop,1
     * reduce 方法何時呼叫：一組 key 相同的 kv 中 value 組成然後呼叫一次 reduce
     * 第一次：key => hello, values => <1,1,1>
     * 第一次：key => hadoop, values => <1,1>
     * 第三次：key => reduce, values => <1>
     *
     * @param key     方法輸出的key本案例中就是單詞
     * @param values  一組key相同的kv的value組成的集合
     * @param context
     * @throws IOException
     * @throws InterruptedException
     */
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
        // 遍歷 key 對應的 values 進行累加
        int sum = 0;
        for (IntWritable value : values) {
            sum += value.get();
        }
        // 直接輸出當前 key 對應的 sum 值，結果就是單詞出現的總次數
        total.set(sum);
        context.write(key,total);
    }
}

Driver

獲取配置檔案物件,獲取 job 物件例項
指定程式 jar 的本地路徑
指定 Mapper / Reduce類
指定 Mapper 輸出的 kv 資料型別
指定最終輸出的 kv 資料型別
指定 job 處理的原始資料路徑
指定 job 輸出結果路徑
提交作業

package com.orginly.mapreduce.wc;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

/**
 * 封裝任務並提交執行
 */
public class WordCountDriver {

    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        // 1. 獲取配置檔案物件,獲取 job 物件例項
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "WordCountDriver");
        // 2. 指定程式 jar 的本地路徑
        job.setJarByClass(WordCountDriver.class);
        // 3. 指定 Mapper / Reduce類
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReduce.class);
        // 4. 指定 Mapper 輸出的 kv 資料型別
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        // 5. 指定最終輸出的 kv 資料型別
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        // 6. 指定 job 處理的原始資料路徑
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        // 7. 指定 job 輸出結果路徑
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        // 8. 提交作業
        boolean flag = job.waitForCompletion(true);// 等待完成 true為完成
        System.exit(flag ? 0 : 1);
    }

}

驗證程式

本地驗證

使用 IDEA 執行 Drive 中的 main() 方法
如果出現其他異常請檢視 https://www.cnblogs.com/orginly/p/15392871.html

先自動執行一次，此時會 args 下標異常
編輯執行配置新增引數
重新執行

Yarn 叢集驗證

把程式打成 jar 包,改名為 wordCount.jar 上傳到 Hadoop 叢集

# 上傳到伺服器
rz
# 重新命名
mv wordCount-1.0-SNAPSHOT.jar wordCount.jar

啟動 Hadoop 叢集(Hdfs,Yarn)
使用 Hadoop 命令提交任務執行

因為是叢集，原始檔不能存放在本地目錄，需要上傳至 HFDS 進行處理

hadoop jar wordCount.jar com.orginly.mapreduce.wc.WordCountDriver /mapReduce/wc.txt /wcoutput

執行成功

如果執行命令時出現版本過低提示，請安裝伺服器所使用的 jdk 版本進行 jar 的打包

MapReduce 實現統計單數出現次數

工程配置在 windows 中配置 hadoop 及環境變數 HADOOP_ 下載 winutils.exe 放入 bin目錄中

如何巧用HashMap一行程式碼統計單詞出現次數詳解

前言 JDK是在一直在迭代更新的，很多我們熟悉的類也悄悄的添加了一些新的方法特性。比如我們最常用的HashMap。

JavaScript統計字元出現次數

本文例項為大家分享了javascript統計字元出現次數的具體程式碼，供大家參考，具體內容如下

C# 統計字元出現次數

有如下字串：【\"患者：“大夫，我咳嗽得很重。”大夫：“你多大年記？”患者：“七十五歲。”大夫：“二十歲咳嗽嗎”患者：“不咳嗽。”大夫：“四十歲時咳嗽嗎？”患者：“也不咳嗽。”大夫：“那現在不咳

彙編統計單詞出現次數

統計單詞出現次數設有一段英文，其字元變數名為 ENG，並以$字元結束（如下定義）。程式檢查單詞 SUN 在文中出現的次數，並以格式“SUN echo times:”顯示出次數。

mysql自定義函式實現統計一個字串在另一個長字串中出現的次數（轉載）

mysql自定義函式實現統計一個字串在另一個長字串中出現的次數 2014年09月23日 11:16:31雪翊寒閱讀數 819

使用python統計《三國演義》小說里人物出現次數前十名，並實現視覺化。

一、安裝所需要的第三方庫 jieba （jieba是優秀的中文分詞第三分庫） pyecharts （一個優秀的資料視覺化庫）

Java案例——用集合實現統計任意字串中字元出現的次數

需求：鍵盤錄入一個字串，統計其中各個字元出現的順序分析： 1.使用Scanner類獲取一個字串

java檔案如何統計字母出現的次數和百分比

這篇文章主要介紹了java檔案如何統計字母出現的次數和百分比,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python統計文字詞彙出現次數的例項程式碼

問題描述有時在遇到一個文字需要統計文字內詞彙的次數的時候，可以用一個簡單的python程式來實現。

python統計文章中單詞出現次數例項

python統計單詞出現次數做單詞詞頻統計，用字典無疑是最合適的資料型別，單詞作為字典的key，單詞出現的次數作為字典的 value，很方便地就記錄好了每個單詞的頻率，字典很像我們的電話本，每個名字關聯一個電話號碼

python統計字串中字母出現次數程式碼例項

程式碼如下 dic=dict() d={} s=set() s=\'helloworld\' （1）d=dict() for x in s: 　　if x not in d.keys():

JavaScript判斷字串中出現次數最多的字元，並統計其次數

要求：輸出一個給定字串``中出現次數最多的字元，並統計其次數。實現思路：

給你一個整數陣列 arr，請你幫忙統計陣列中每個數的出現次數

題目：　 /* 給你一個整數陣列arr，請你幫忙統計陣列中每個數的出現次數。 *

python運用jieba庫統計《西遊記》中相關分詞出現次數最高的20個

importjieba txt = open(\"西遊記.txt\", \"r\", encoding=\'utf-8\').read() words = jieba.lcut(txt)# 使用精確模式對文字進行分詞

go統計字串及陣列中出現次數

陣列:統計出現字數 package main import \"fmt\" funcmain(){ s := [...]string{\"Mlxg\", \"123\",\"Mlxg\", \"abc\" ,\"fff\" ,\"123\", \"Mlxg\",

統計字串出現的次數(C)

技術標籤：C語言字串指標 //標頭檔案 #include <stdio.h> #include <stdlib.h> #include <string.h>

使用kafka Streams統計單詞出現的次數

1.實現邏輯：統計生產者生產的訊息，處理邏輯：統計每個單詞出現的次數，並將結果輸出到目標主題中

統計一個字串中出現次數最多的字母和次數

技術標籤：pythonpython字串 strs = input(\'請輸入你的字串：\') dicts = {} for i in strs: dicts[i] = strs.count(i)# 構造字典，key=字母，value=字母次數，次數用count統計

從命令列引數中得到一個字串，統計該字串中字母 a 的出現次數。

技術標籤：javajava字串從位元組或字串陣列中得到一個字串，統計該字串中字母 a 的出現次數。

MapReduce 實現統計單數出現次數

工程配置

整體思路

Map 階段

Reduce 階段

Driver

驗證程式

本地驗證

Yarn 叢集驗證

相關推薦