大資料離線-MapReduce(上)--初識MapReduce

阿新 • • 發佈：2018-12-09

本次主要介紹MapReduce,分為上篇，下篇兩個篇章

上篇介紹MapReduce計算模型，MapReduce編碼規範及測試，程式執行模式。
下篇介紹MapReduce序列化，MaoReduce排序初步，Mapreduce 的分割槽。

1. MapReduce計算模型

MapReduce是: 將使用者編寫的業務邏輯程式碼和自帶預設元件整合成一個完整的分散式運算程式，併發執行在Hadoop 叢集上。簡化平行計算的程式設計模型，降低了開發並行應用的入門門檻。
MapReduce思想：在生活中處處可見。或多或少都曾接觸過這種思想。MapReduce 的思想核心是“ 分而治之”，適用於大量複雜的任務處理場景（大規模資料處理場景）。即使是釋出過論文實現分散式計算的谷歌也只是實現了這種思想，而不是自己原創。
- Map 負責“分”，即把複雜的任務分解為若干個“簡單的任務”來並行處理。可以進行拆分的前提是這些小任務可以平行計算，彼此間幾乎沒有依賴關係。
- Reduce 負責“合”，即對 map 階段的結果進行全域性彙總。
舉個栗子 我們要數圖書館中的所有書。你數 1 號書架，我數 2 號書架。這就是“ Map” 。我們人越多，數書就更快。現在我們到一起，把所有人的統計數加在一起。這就是“ Reduce” 。
資料模型 Map: 對一組資料元素進行某種重複式的處理； Reduce: 對 Map 的中間結果進行某種進一步的結果整理。

Map 和 Reduce 為程式設計師提供了一個清晰的操作介面抽象描述。通過以上兩個程式設計介面，大家可以看出 MapReduce 處理的資料型別是key,value鍵值對

。

2. MapReduce編碼規範及測試

程式設計規範 使用者編寫的程式分成三個部分： Mapper， Reducer， Driver(提交執行 mr 程式的客戶端)
- Mapper 的輸入輸出都是資料是 KV 對的形式（ KV 的型別可自定義），業務邏輯寫在map()方法中的，map()方法中（maptask）對每一個（k,v）呼叫一次
- Reducer 的輸入資料型別對應 Mapper 的輸出資料型別，也是 KV， Reducer 的業務邏輯寫在 reduce()方法中， Reducetask 程序對每一組相同 k 的k,v組呼叫一次 reduce()方法
- 使用者自定義的 Mapper 和 Reducer 都要繼承各自的父類
- 整個程式需要一個 Drvier 來進行提交，提交的是一個描述了各種必要信息的 job 物件
例項程式碼
- 需求：在一堆給定的文字檔案中統計輸出每一個單詞出現的總次數，準備檔案內容如下,兩份

hello hadoop HDFS hadoop
Stream Stocket Hello
hadoop HDFS Stocket

POM依賴：拷貝的時候注意POM中的提示

   <dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.4</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.7.4</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.4</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-mapreduce-client-core</artifactId>
            <version>2.7.4</version>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-jar-plugin</artifactId>
                <version>2.4</version>
                <configuration>
                    <archive>
                        <manifest>
                            <addClasspath>true</addClasspath>
                            <classpathPrefix>lib/</classpathPrefix>
 //這裡需要自己定義，執行的主類路徑，請注意  <mainClass>cn.mapreduce.WordCountDriver</mainClass>
                        </manifest>
                    </archive>
                </configuration>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>3.0</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                    <encoding>UTF-8</encoding>

                </configuration>
            </plugin>
        </plugins>
    </build>

Mapper類，實現業務邏輯，下面為引數解析：

引數解析： Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
KEYIN：表示mapper資料輸入的時候key的資料型別，在預設的讀取資料元件下，叫InputFormat,它的行為是一行一行的讀取待處理的資料一行，返回一行給我們的mr程式，這種情況下  keyin就表示每一行的起始偏移量 因此資料型別是Long

VALUEIN:表述mapper資料輸入的時候value的資料型別，在預設的讀取資料元件下 valuein就表示讀取的這一行內容  因此資料型別是String

KEYOUT 表示mapper資料輸出的時候key的資料型別  在本案例當中 輸出的key是單詞  因此資料型別是 String

VALUEOUT表示mapper資料輸出的時候value的資料型別  在本案例當中 輸出的key是單詞的次數  因此資料型別是 Integer

這裡所說的資料型別String Long都是jdk自帶的型別   在序列化的時候  效率低下 因此hadoop自己封裝一套資料型別
 *   long---->LongWritable
 *   String-->Text
 *   Integer--->Intwritable
 *   null-->NullWritable

package com.hadoop.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WordCountMapper extends Mapper<LongWritable,Text,Text,IntWritable>{

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

         //拿到當前行讀入行的內容，轉換為String型別
        String line = value.toString();

        //使用空格將當前行的內容切分
        String[] words = line.split(" ");

        //遍歷當行的單詞，出現一次就標記1 形式<單詞，1>
        for (String word : words) {

            //使用MapReduce的上下文物件，把mapper階段處理的資料傳送出去
            //作為reduce節點的輸入資料
            //用第一行舉個例子：hello hadoop HDFS NIO---->  <hello,1><hadoop,1><HDFS,1><hadoop，1>
            context.write(new Text(word),new IntWritable(1));
        }


    }
}

Reducer類，實現業務邏輯，下面為引數解析：

PS：說明
Reducer接收來的資料，會按照Key的字典進行排序
輸入資料：<hello,1><hadoop,1><HDFS,1><hadoop，1>
排序資料：<hadoop，1><hadoop，1><hello,1><HDFS,1>
按照key是否相同去呼叫reduce（）方法，這組的key就是這個相同的key
把這一組所有的v,作為一個迭代器傳入我們reduce()方法中<hadoop,[1,1]>

package com.hadoop.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReducer extends Reducer<Text,IntWritable,Text,IntWritable> {

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        //定義一個計數器
        int count=0;

        //遍歷迭代器，把每一組的數量累加起來，就是單詞出現的次數
        for (IntWritable value : values) {
            count+=value.get();
        }

        //輸出最終結果
        context.write(key,new IntWritable(count));
    }
}

Driver類，實現業務邏輯，下面為引數解析：

package com.hadoop.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCountDriver {

    /**
     * 這個類就是mr程式執行時候的主類，本類中組裝了一些程式執行時候所需要的資訊
     * 比如：使用的是那個Mapper類  那個Reducer類  輸入資料在那 輸出資料在什麼地方
     */
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        //通過Job來封裝本次mr相關的資訊
        Configuration conf = new Configuration();
       //conf.set("mapreduce.framework.name","local");
        Job job = Job.getInstance(conf);

        //指定本次MapReduce,job jar執行的主類
        job.setJarByClass(WordCountDriver.class);

        //指定本次mapReduce執行的mapper,Reducer類分別是什麼
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        //指定本次Mapper階段輸出的資料型別
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        //指定最終的輸出型別
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //指定檔案的輸入和輸出位置,都是在Windows的路徑下
        FileInputFormat.setInputPaths(job,new "/WordCount/Input");
        FileOutputFormat.setOutputPath(job,new Path("/WordCount/Output"));

        //提交程式  並且監控列印程式執行情況
        boolean b = job.waitForCompletion(true);
        System.exit(b?0:1);
    }
}

3. MapReduce程式執行模式

本地執行
1. 本地執行需要釋放WordCountDirver類中的這一行程式碼conf.set("mapreduce.framework.name","local");
2. 更改檔案的路徑

 //指定檔案的輸入和輸出位置,都是在Windows的路徑下
        FileInputFormat.setInputPaths(job,new "D:/temp/Input");
        FileOutputFormat.setOutputPath(job,new Path("D:/temp/Output"));

3.執行程式碼，會看到在D:/temp/Output路徑下的檔案part-r-00000，內容如下

這裡寫圖片描述

Linux的hadoop叢集執行
- . 註釋或者刪除程式碼 //conf.set("mapreduce.framework.name","local");
- . 將檔案打包使用maven打包.jar檔案，上傳到虛擬機器目錄
- . 建立目錄啟動叢集，在叢集中建立對應的目錄

 FileInputFormat.setInputPaths(job,new "/WordCount/Input");
 FileOutputFormat.setOutputPath(job,new Path("/WordCount/Output"));

. 建立檔案，上傳到/WordCount/Input目錄
. 執行程式碼找到對應jar的安裝包，開啟最高許可權，使用命令啟動 hadoop jar 上傳檔案.jar

大資料離線-MapReduce(上)--初識MapReduce

本次主要介紹MapReduce,分為上篇，下篇兩個篇章上篇介紹MapReduce計算模型，MapReduce編碼規範及測試，程式執行模式。下篇介紹MapReduce序列化，MaoReduce排序初步，Mapreduce 的分割槽。 1. Ma

大資料Hive系列之Hive MapReduce

1. JOIN 1.1 join操作 INSERT OVERWRITE TABLE pv_users SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid);

大資料入門（9）mapreduce計算wordcount的程式編寫

1、外部寫好的程式打Java jar 包，匯入jar sftp> put e:/wc.jar 2、建立文字進行計算 vi words.log hadoop fs -mkdir /wc hadoop fs -mkdir /wc/srcData/ 3、執行jar hadoop ja

大資料開發之Hadoop篇----mapreduce概念以及架構

在我們瞭解了hdfs的一些基礎概念以後，我們現在就來進一步瞭解一下mapreduce的相關概念。首先，mapreduce在hadoop體系裡面充當一個計算者的角色，但如我們之前所演示一樣我們在開啟hdfs和yarn時都有相關的程序，但mapreduce就是沒有的。mapreduce是直接執行在

【大資料入門二——yarn和mapreduce】

連續幾天夜裡加餐，讓我想起了新兵連的夜訓，在你成為合格戰士之前，你必須經歷新兵連的過程，，，，其實每個行業都有一個屬於它自己的新兵連，不經歷此處的磨練，你難以在這個行業立足，我承認先天的資本，但我更相信後天的努力，也許有的人奮鬥一生都沒有達到他人的起點，我為他人荒廢人生而感到可恥，為此人奮鬥

Hadoop大資料平臺入門——HDFS和MapReduce

隨著硬體水平的不斷提高，需要處理資料的大小也越來越大。大家都知道，現在大資料有多火爆，都認為21世紀是大資料的世紀。當然我也想打上時代的便車。所以今天來學習一下大資料儲存和處理。大資料學習資料分享群119599574 隨著資料的不斷變大，資料的處理就出現了瓶頸：儲存容量，讀

大資料離線-HDFS（上）

本次介紹HDFS,分為上，中，下，三篇上篇入HDFS門介紹，常用操作中篇為HDFS的讀寫原理介紹下篇為HDFS的測試Demo，常用API 1. HDFS的基本概念 HDFS的介紹 HDFS 是 Hadoop Distribute File

Thinking in BigData（八）大資料Hadoop核心架構HDFS+MapReduce+Hbase+Hive內部機理詳解

純乾貨：Hadoop核心架構HDFS+MapReduce+Hbase+Hive內部機理詳解。通過這一階段的調研總結，從內部機理的角度詳細分析，HDFS、MapReduce、Hbase、Hive是如何執行，以及基於Hadoop資料倉庫的構建和分散式資

7.大資料學習之旅——hadoop-MapReduce

序列化/反序列化機制當自定義一個類之後，如果想要產生的物件在hadoop中進行傳輸，那麼需要這個類實現Writable的介面進行序列化/反序列化案例：統計每一個人產生的總流量 import java.io.DataInput; import java.io.DataOutp

大資料07-Hadoop框架下MapReduce中的map個數如何控制

一個job的map階段並行度由客戶端在提交job時決定客戶端對map階段並行度的規劃基本邏輯為：一、將待處理的檔案進行邏輯切片（根據處理資料檔案的大小，劃分多個split），然後每一個split分配一個maptask並行處理例項二、具體切片規劃是由FileInputFormat實現類的ge

應聘——大資料研發（1）-MapReduce程式設計

MapReduce 本文參見《MapReduce Design Pattern》文中[例項程式碼] 第一章：設計模式 Reader 將輸入資料轉換成key-value的形式，通常Key為資料塊存放的地址，Value為資料。 Map 自定義

大資料案例（四）——MapReduce將檔案按照訂單號分成若干個小檔案

一、需求：將檔案按照訂單號分成若干個小檔案二、資料準備資料準備 Order_0000001 Pdt_01 222.8 Order_0000002 Pdt_05 722.4 Order_0000001 Pdt_05 25.8 Order_0000003 Pdt_01 222.8 Order_

大資料案例（七）——MapReduce之map端表合併（Distributedcache）

一、前期準備由於本案例是在案例六的基礎上做的優化，所以需求及資料輸入輸出請參考案例六；初次之外需要拷貝pd.txt檔案在本地電腦J盤的根目錄下以做參考本案例只需要上傳order.txt到HDFS上即可-"/user/hadoop/order_productv2/input" 二

大資料HBase系列之初識HBase

1. HBase簡介 1.1 為什麼使用HBase 傳統的RDBMS關係型資料庫（MySQL/Oracle）儲存一定量資料時進行資料檢索沒有問題，可當資料量上升到非常巨大規模的資料（TB/PB）級別時，傳統的RDBMS已無法支撐，這時候就需要一種新型的資料庫系統更好更

大資料實戰（上）——環境搭建

設定 hostname 為hadoop： $hostname hadoop 設定ip地址與hostname關聯：$vim /etc/hosts 新增 IP地址 hadoop 關閉 iptables： $service iptabl

Hadoop（三）大資料離線計算與實時計算

分享一下我老師大神的人工智慧教程吧。零基礎，通俗易懂！風趣幽默！http://www.captainbed.net/ 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

10小時入門大資料（二）------初識Hadoop

10小時入門大資料（二）——初識Hadoop 1、Hadoop介紹開源、分散式儲存+分散式計算平臺 2、Hadoop能做什麼搭建大型資料倉庫、PB級資料儲存、處理、分析、統計等搜尋引擎、日誌分析、商業智慧、資料探勘 3、核心元件之分散式檔案系統

大資料離線---網站日誌流量分析系統（1）---簡介及框架

本次介紹網站日誌流量分析系統，首先是簡介和架構。後面會對架構中需要的每個模組的進行逐個介紹。本篇主要分為兩個部分網站日誌流量分析系統簡介整體技術流程和架構 1. 網站日誌流量分析系統簡介 1.1點選流資料模型點選流的概念點選流（ Cl

大資料離線---網站日誌流量分析系統（2）---資料獲取和預處理

本次接上一篇，進行實際資料的獲取和預處理，會有較多的程式碼內容資料的獲取資料的預處理資料的獲取需求資料採集的需求廣義上來說分為兩大部分。是在頁面採集使用者的訪問行為，具體開發工作： 1、開發頁面埋點 js，採集使用者訪問行為 2、後臺接受

大資料離線---Hive的表操作介紹

這次我們主要針對hive的操作表做簡單的介紹：託管表和外部表分割槽和桶這2個部分做簡介 Hive表格邏輯上有儲存的資料和描述表格中資料形式的相關元資料組成。資料一般儲存在HDFS上，也可以存放在本地檔案系統中。元資料存放在關係資料庫中。 1. 託管表

大資料離線-MapReduce(上)--初識MapReduce

1. MapReduce計算模型

2. MapReduce編碼規範及測試

3. MapReduce程式執行模式

相關推薦