MapReduce的執行流程和程式設計規範以及簡單的WordCount案例

阿新 • • 發佈：2020-12-18

技術標籤：hadoop mapReduce 大資料 hadoop mapreduce

▶ \blacktriangleright ▶ MapReduce程式設計規範

Mapper階段（以WordCount為例）
1. 使用者自定義的類要繼承Mapper類
2. 輸入的資料是KV對的形式（K:當前行數，V:當前行的內容）
3. Mapper中的業務邏輯寫在map()方法中，也就是說要重寫map方法
4. 輸出資料也是KV對的形式（K:每個單詞 V: 1 ）
5. map方法對每個K V呼叫一次
Reducer階段
8i9=-0o
1. 使用者自定義的類要繼承Reducer類
2. 輸入型別詩句對應的時Mapper的輸出資料型別，也是KV
3. Reducer的業務邏輯寫在reduce方法中
4. ReduceTask程序對每一組相同K的的<K,V>組呼叫一側reduce方法
Driver階段

相當於yarn叢集的客戶端，用來提交我們整個程式到yarn叢集，提交的是封裝了MapRdeuce程式相關執行引數的job物件

▶ \blacktriangleright ▶ 案例實操

在F盤新建一個hello.txt

  內容：Hello World
  Hello Hadoop
  Hello MapReduce

新建WordCountMapper.java


import org.apache.hadoop.io.IntWritable;
import org.apache. 
hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WordCountMapper extends Mapper<LongWritable, Text,Text, IntWritable> {
    Text k = new Text();
    IntWritable v = new IntWritable();
    @Override
    protected 
 void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line =  value.toString();//行的內容
        String[] words = line.split(" ");//空格拆分成單詞
        for(String word : words){
            k.set(word);
            v.set(1);
            context.write(k,v);
        }
    }
}

新建WordCountReducer.java

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReducer extends Reducer<Text, IntWritable, Text,IntWritable> {
   /* 
    實際拿到的
    hadoop,1
    hello ,(1,1,1)
    mapreducer,1
    world ,1
    */
    int sum = 0;
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        for(IntWritable i : values){
            sum+=i.get();//結果轉成int型
        }
        context.write(key,new IntWritable(sum));
    }
}

新建Driver.java

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class Driver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Job job = Job.getInstance();   //封裝成Job物件
        job.setMapOutputKeyClass(Text.class);//map輸出的key的型別
        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(Text.class);//reducer輸出的key的型別
        job.setOutputValueClass(IntWritable.class);

        job.setMapperClass(WordCountMapper.class);//設定返回的型別
        job.setReducerClass(WordCountReducer.class);

        FileInputFormat.setInputPaths(job,new Path("F://hello.txt"));//讀取檔案路徑
        FileOutputFormat.setOutputPath(job,new Path("F://helloOutput"));//結果輸出的路徑

        job.waitForCompletion(true);//完成之後退出
    }
}

▶ \blacktriangleright ▶ MapReduce的執行流程

內容：Hello World
    Hello Hadoop
    Hello MapReduce

分片

分片過程中主要的任務就是確定資料大小。這個值一旦確定就可以依次將原始檔按值進行劃分，小於這個值就成為單獨的一個區，大於這個值就按這個值劃分，不足的部分成為單獨的一個區。hadoop2.x的中這個值是128MB，也就是說原始檔有200MB時，就分成2個區，一個區是0-128，剩下的是一個單獨的區

2.輸入格式化

 是將劃分好的區格式轉化成<key,value>形式的資料，其中key是行數，value是當前行的內容。
每解析出一個數據源，就交給Mapper處理一次
根據如上內容，解析出的資料來源應該是
        <1,Hello World>
        <2,Hello Hadoop>
        <3,Hello MapReduce>

3.Map過程

Mapper接收<key,value>形式的資料，並處理成<key,value>形式的資料

在WOrdCount中，Mapper會解析傳過來的key值，以空格字元為標誌，如果碰到空格就把之前累計的字串作為輸出的key值 ，1當作value的值

根據如上內容，輸出的內容是
        <Hello,1>
        <World,1>
        <Hello,1>
        <Hadoop,1>
        <Hello,1>
        <MapReduce,1>

4.Shuffle過程

主要是對Map輸出結果進行分割槽、排序、合併等處理並交給Reduce的過程

根據如上內容，處理之後的結果是
        <Hadoop,{1}> 
        <Hello,{1，1，1}>
        <MapReduce,{1}>
        <World,{1}>

5.Reduce過程

Reduce接收<key,{value list}>形式的資料流，形成<key,value>形式的資料輸出，輸出資料直接寫入HDFS

在WordCount中，Reducer會將相同的key的value list進行累加，然後得到單詞的總次數，然後輸出

根據如上內容，寫入的資料是
        <Hadoop,{1}>     -------------><hadoop,1>
        <Hello,{1，1，1}>-------------><Hello,3>
        <MapReduce,{1}>  -------------><MapReduce,1>
        <World,{1}>      -------------><World,1>

輸出

MapReduce看框架自動把Reducer生成的<key,value>傳入write()方法，write()方法實現檔案的寫入

在WordCount中，呼叫的是預設的文字寫入的方法

MapReduce的執行流程和程式設計規範以及簡單的WordCount案例

技術標籤：hadoopmapReduce大資料hadoopmapreduce ▶ \\blacktriangleright ▶ MapReduce程式設計規範

JavaWeb19.2【Filter&Listener：過濾器Filter的執行流程和生命週期方法】

1 package com.haifei.web.filter; 2 3 import javax.servlet.*; 4 import javax.servlet.annotation.WebFilter;

MapReduce執行流程

資料處理總流程 MapReduce計算框架體現的是一個分治的思想。及將待處理的資料分片在每個資料分片上並行執行相同邏輯的map()函式，然後將每一個數據分片的處理結果彙集到reduce()函式進行規約整理，最後輸出結果。

Servlet的執行流程和生命週期

Servlet的執行流程首先是瀏覽器地址: http://IP+埠號/Servlet對映的名稱然後看一個web的xml檔案

Python15--程式設計規範以及命名要求

Python程式設計規範每個python檔案以.py結尾,檔名小寫 Python嚴格區分大小寫編碼中使用英文標點符號

MySQL的執行流程和執行順序

MySQL執行過程以及順序前言:MySQL在我們的開發中基本每天都要面對的,作為開發中的資料的來源,MySQL承擔者儲存資料和讀寫資料的職責。因為學習和了解MySQL是至關重要的,那麼當我們在客戶端發起一個SQL到出現詳細的查

插曲：Kafka的執行流程總結和原始碼前準備

前言雖然這是一個原始碼的預熱篇同樣這也是插曲篇的一個總結，我們從一開始的叢集的各個角色，到叢集的設計，到網路模型，到生產者，消費者都已經提了個遍。這一篇會把最後的一個核心提一下，然後對以往的概念三篇做

Java多執行緒併發程式設計和鎖原理解析

這篇文章主要介紹了Java多執行緒併發程式設計和鎖原理解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

laravel 框架執行流程與原理簡單分析

本文例項講述了laravel 框架執行流程與原理。分享給大家供大家參考，具體如下：

Python爬蟲程式架構和執行流程原理解析

1 前言 Python開發網路爬蟲獲取網頁資料的基本流程為：發起請求通過URL向伺服器發起request請求，請求可以包含額外的header資訊。

MapReduce的執行流程概述

MapReduce處理資料的大致流程 ①InputFormat呼叫RecordReader，從輸入目錄的檔案中，讀取一組資料，封裝為keyin-valuein物件

第十章：Python高階程式設計-多執行緒、多程序和執行緒池程式設計

第十章：Python高階程式設計-多執行緒、多程序和執行緒池程式設計 Python3高階核心技術97講筆記

Scala學習筆記一（與Java、Jvm的關係以及程式執行流程分析）

一、Scala語言與Java、Jvm的關係分析　　Scala語言是馬丁奧德斯基接觸Java語言後，針對Java語言的特點，將函數語言程式設計語言的特點融合到Java中，由此發明的。Scala語言和Java語言的；聯絡是十分緊密的。現在主流

Mybatis外掛原理和執行流程

感謝尚矽谷的老師講解外掛：外掛存在的目的就相當於javaweb中的攔截器，可以攔截要操作的四大物件，包裝物件額外新增內容，使得Mybatis的靈活性更強。

MySQL 服務端整體架構和 SQL 查詢語句的執行流程

MySQL 資料庫客戶端成功建立與服務端的連線和並完成使用者認證後，就可以傳送 SQL 語句與服務端互動了：

併發程式設計第一章--簡單介紹和環境準備

併發程式設計 1.概覽 1.1這門課講什麼程序執行緒併發並行 Java併發工具、併發問題以及解決方案，同時涉及其他領域的併發

@SpringBootApplication 註解詳解以及執行流程

@SpringBootApplication : 是Sprnig Boot專案的核心註解，目的是開啟自動配置目錄 @SpringBootApplication : 是Sprnig Boot專案的核心註解，目的是開啟自動配置

RabbitMQ安裝以及簡單操作應用（針對Windows和C#）

1.RabbitMQ安裝 1.1下載並安裝Erlang https://www.erlang.org/downloads 一直點next就安裝好了。我直接使用了預設的安裝目錄。否則的話，應該需要配置一下環境變數吧。

C#中的非同步程式設計--探索await與async關鍵字的奧妙之處，原來理解和使用非同步程式設計可以這麼簡單

技術標籤：C#教程c# 前言 await與async是C#5.0推出的新語法，關於await與async有很多文章講解。但看完後有沒有這樣一種感覺，感覺這東西像是不錯，但好像就是看不太懂，也不清楚該怎麼使用。雖然偶有接觸，但是一

Mongodb 的介紹和安裝以及簡單的使用

一：MongoDB 的介紹 1.1 什麼是mongodb mongodb 是一個功能最豐富的NoSQL非關係資料庫。由 C++ 語言編寫。

MapReduce的執行流程和程式設計規範以及簡單的WordCount案例

▶ \blacktriangleright ▶ MapReduce程式設計規範

▶ \blacktriangleright ▶ 案例實操

▶ \blacktriangleright ▶ MapReduce的執行流程

相關推薦