hadoop離線day09 mapreduce入門和wordcount示例

阿新 • • 發佈：2020-12-10

技術標籤：hadoop離線分散式 hadoop mapreduce 大資料 spark

mapreduce入門和wordcount示例

- 1、mapreduce入門
- 2、wordcount示例

1、mapreduce入門

分散式檔案計算系統，主要用於計算我們的一些資料
MapReduce的核心思想：分而治之
最主要有兩個階段：
map階段：負責任務拆分，
reduce階段：負責結果聚合

mapreduce程式設計可控的八個步驟（天龍八部）

map階段兩個步驟
1、第一步：讀取檔案，解析成key,value對，這裡是我們的K1 V1
2、第二步：接收我們的k1 v1，自定義我們的map邏輯，然後轉換成新的key2 value2 進行輸出往下發送這裡傳送出去的是我們k2 v2
shuffle階段四個步驟
3、第三步：分割槽相同key的value傳送到同一個reduce裡面去，key合併，value形成一個集合
4、第四步：排序預設按照欄位順序進行排序
5、第五步：規約
6、第六步：分組
reduce階段兩個步驟
7、接收我們的k2 v2 自定義我們的reduce邏輯，轉換成新的k3 v3 進行輸出
8、將我們的K3 v3 進行輸出

2、wordcount示例

需求：在一堆給定的文字檔案中統計輸出每一個單詞出現的總次數
資料格式準備如下：

cd /export/servers
vim wordcount.txt
#hello,world,hadoop
#hive,sqoop,flume,hello 

#kitty,tom,jerry,world
hadoop
hdfs dfs -mkdir /wordcount/
hdfs dfs -put wordcount.txt /wordcount/

java 實現程式碼

package cn.itcat.wordcount;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import 
 org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

/**
 * 除了javaweb的程式打成一個war包進行執行，其他的程式都是打成一個jar包進行執行
 * 執行一個jar包，需要一個main方法，作為我們程式的入口類
 */
public class MainCount extends Configured implements Tool{


    /**
     * 程式的入口類
     * @param args
     */
    public static void main(String[] args) throws Exception {
        Configuration configuration = new Configuration();
        //這裡執行完成之後，得到一個int型別的返回值，表示我們程式的退出狀態碼
        //如果退出狀態碼是0  程式執行成功
        //通過這裡設定configuration，就相當於我們把父類的configuration設定值了
        int run = ToolRunner.run(configuration, new MainCount(), args);
        System.exit(run);


    }

    /**
     * 這個run方法很重，這裡面就是通過job物件來組裝我們的程式，說白了就是組裝我們的八個類
     * @param args
     */
    @Override
    public int run(String[] args) throws Exception {
        //第一步：讀取檔案，解析成key,value對
        //從父類裡面獲取configuration配置檔案
        //getInstance需要兩個引數，第一個引數是我們的configuration配置檔案，第二個引數叫做jobName隨便寫
        Job job = Job.getInstance(super.getConf(), "xxx");

        //如果打包到叢集上面去執行，需要新增這一句，指定我們main方法所在的java類
        job.setJarByClass(MainCount.class);

        TextInputFormat.addInputPath(job,new Path("hdfs://node01:8020/wordcount"));
        job.setInputFormatClass(TextInputFormat.class);

        job.setMapperClass(WordCountMapper.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);


        job.setReducerClass(WordCountReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        TextOutputFormat.setOutputPath(job,new Path("hdfs://node01:8020/wordcountoutput"));

        job.setOutputFormatClass(TextOutputFormat.class);
        boolean b = job.waitForCompletion(true);
        return b?0:1;
    }
}

package cn.itcat.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;


public class WordCountMapper extends Mapper<LongWritable,Text,Text,IntWritable> {
    /***
     * 重寫map方法，實現我們自己的邏輯，接受我們key1,value1  轉換成新的k2  v2  輸出
     * @param key  注意這個key是我們的k1
     * @param value  注意這個value是我們的v1
     * @param context  上下文物件，承上啟下，銜接我們的上面的元件與下面的元件
     * @throws IOException
     * @throws InterruptedException
     */
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
//hive,sqoop,flume,hello
        //第一步：切開我們一行資料
        String line = value.toString();
        String[] split = line.split(",");//[hive,sqoop,flume,hello]
        //  key2    value2    往下發送
        //  hive   1
        for (String word : split) {

           Text k2 =  new Text(word);
           IntWritable v2 =  new IntWritable(1);

           //通過write方法，將我們的資料往下發送
            context.write(k2,v2);

        }


    }
}

package cn.itcat.wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WordCountReducer extends Reducer<Text,IntWritable,Text,IntWritable> {

    /**
     *
     * @param key  注意這個key  是  k2
     * @param values  注意這個values是一個集合，集合的類習慣是  v2的型別
     * @param context
     * @throws IOException
     * @throws InterruptedException
     */
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int j= 0;
        for (IntWritable value : values) {
            //IntWritable這個類，沒有普通的  +  方法，不能累加，需要轉換成  int型別進行累加
            int num = value.get();
            j += num;

        }
        //輸出我們的key3  value3  型別
        context.write(key,new IntWritable(j));


    }
}

hadoop離線day09 mapreduce入門和wordcount示例

技術標籤：hadoop離線分散式hadoopmapreduce大資料spark mapreduce入門和wordcount示例 1、mapreduce入門2、wordcount示例

在Hadoop環境下執行MapReduce自帶的wordCount示例

首先先建立一個目標檔案words，將其儲存至/home/hadoop目錄下： cd /home/hadoopvim words# 向新檔案中新增內容，例如：data mining on data warehouse

wordcount打包在叢集上執行+hadoop序列化+MapReduce並行度決定機制

1、wordcount打包在叢集上執行點選idea右側的mavenproject 成功之後：然後重新命名為1.jar上傳到我們的linux叢集中

Flink入門程式WordCount 和 SQL實現

Flink入門程式WordCount 和 SQL實現一、WordCount 1、首先建立好專案，然後新增相關依賴

2.2.10 hadoop體系之離線計算-mapreduce分散式計算-MapReduce執行機制總結

目錄 1.總的圖解（❤❤❤最重要❤❤❤） Map階段總結：（重要） 3.Reduce階段 reduce階段總結（重要）

Hadoop 專欄 - MapReduce 入門

MapReduce的基本思想先舉一個簡單的例子: 打個比方我們有三個人鬥地主, 要數數牌夠不夠, 一種最簡單的方法可以找一個人數數是不是有54張(傳統單機計算); 還可以三個人各分一摞牌數各自的(Map階段), 三個人的總數加起

MapReduce入門案例之wordcount（計算單詞出現次數）

MR的wordcount的練習就相當於java的helloworld一樣學習前提： JAVA基礎：資料型別、方法、面向物件、反射等等（看懂語法）

Protobuf入門和實戰

1.簡介 Protobuf（Google Protocol Buffer）是 Google公司內部的混合語言資料標準，目前已經開源，支援多種語言（C++、C#、Go、JS、Java、Python、PHP），它是一種輕便高效的結構化資料儲存格式，可以用於結構化資料

Mongodb副本集和分片示例詳解

前言因為之前沒用過mongo，所以最近的開發踩了不少坑，現在熟練了不少。 mongo在許多地方用起來還有許多不如意的地方，比如不知道如何加行鎖，雖然mongo本身可以加寫鎖，多寫的時候保證原子性，但不能向mysql在事務

PyTorch實現ResNet50、ResNet101和ResNet152示例

PyTorch: https://github.com/shanglianlm0525/PyTorch-Networks import torch import torch.nn as nn import torchvision

Pytorch實現LSTM和GRU示例

為了解決傳統RNN無法長時依賴問題，RNN的兩個變體LSTM和GRU被引入。 LSTM Long Short Term Memory，稱為長短期記憶網路，意思就是長的短時記憶，其解決的仍然是短時記憶問題，這種短時記憶比較長，能一定程度上解決長

python如何求陣列連續最大和的示例程式碼

題目描述：一個有 n 個元素的陣列，這 n 個元素既可以是正數也可以是負數，陣列中連續的一個或多個元素可以組成一個連續的子陣列，一個數組可能有多個這種連續的子陣列，求子陣列的最大值。例如，對於陣列 [1，-2，

php使用redis的幾種常見操作方式和用法示例

本文例項講述了php使用redis的幾種常見操作方式和用法。分享給大家供大家參考，具體如下：

vue cli4下環境變數和模式示例詳解

本文介紹了vue cli4下環境變數和模式示例詳解，分享給大家，具體如下：官方文件

PHP介面類（interface）的定義、特點和應用示例

本文例項講述了PHP介面類（interface）的定義、特點和應用。分享給大家供大家參考，具體如下：

java中的多型和繼承示例分析

本文例項講述了java中的多型和繼承。分享給大家供大家參考，具體如下：我們知道“多型”和“繼承”是分不開的哦！我們先寫2個類！

jQuery cookie的公共方法封裝和使用示例

本文例項講述了jQuery cookie的公共方法封裝和使用。分享給大家供大家參考，具體如下：

Golang 限流器的使用和實現示例

限流器是服務中非常重要的一個元件，在閘道器設計、微服務、以及普通的後臺應用中都比較常見。它可以限制訪問服務的頻次和速率，防止服務過載，被刷爆。

Java NIO系列教程（十）client和server 示例

//客戶但package com.example.demo.nio;import java.io.IOException;import java.net.InetSocketAddress;import java.nio.ByteBuffer;import java.nio.channels.SelectionKey;import java.nio.channels.Selector;imp

5分鐘帶你快速入門和了解 OAM Kubernetes

什麼是 OAM？ OAM 的全稱為開放應用模型（Open Application Model），由阿里巴巴宣佈聯合微軟共同推出。

hadoop離線day09 mapreduce入門和wordcount示例

mapreduce入門和wordcount示例

1、mapreduce入門

2、wordcount示例

相關推薦