1. 程式人生 > 實用技巧 >MapReduce學習+wordcount

MapReduce學習+wordcount

1、關於mapreduce的定義:

MapReduce是一個 分散式運算程式的程式設計框架,是使用者開發"基於Hadoop的資料分析應用”的核心框架。
MapReduce核心功能是將使用者編寫的業務邏輯程式碼和自帶預設元件整合成一個完整的分散式運算程式,併發執行在一個Hadoop叢集. 上。

2、mapreduce的優點(總的來說就是簡單)

1. MapReduce易於程式設計
它簡單的實現一些介面,就可以完成一個分散式程式,這個分散式程式可以分佈到大量廉價的PC機器上執行。也就是說你寫一個 分散式程式,跟寫一個簡單的序列程式是一模一 樣的。就是因為這個特點使得MapReduce程式設計變得非常流行。

2.良好的擴充套件性
當你的計算資源不能得到滿足的時候,你可以通過簡單的增加機器來擴充套件它的計算能力。

3.高容錯性

MapReduce設計的初衷就是使程式能夠部署在廉價的PC機器上,這就要求它具有很高的容錯性。比如其中-臺機器掛了,它可以把上面的計算任務轉移到另外一一個節點上執行,不至於這個任務執行失敗,而且這個過程不需要人工參與,而完全是由Hadoop內部完成的。
4.適合PB級以上海量資料的離線處理
可以實現上千臺伺服器叢集併發工作,提供資料處理能力。

3、mapreduce的缺點(總體來說就是慢)

1.不擅長實時計算
MapReduce無法像MySQL-樣,在毫秒或者秒級內返回結果。
2.不擅長流式計算

流式計算的輸入資料是動態的,而MapReduce的輸入資料集是靜態的, 不能動態變化。這是因為MapReduce 自身的設計特點決定了資料來源必須是靜態的。
3.不擅長DAG (有向圖)計算
多個應用程式存在依賴關係,後一個應用程式的輸入為前一個的輸出。在這種情況下,MapReduce並不是不能做,而是使用後,每個MapReduce作業的輸出結果都會寫入到磁碟,會造成大量的磁碟IO,導致效能非常的低下。

4、mapreduce的核心思想

map是將所有的資料對映咱們想要的形式(很多個單詞一的形式),之後reduce對資料進行處理(進行合併)

5、常用資料序列化型別:

6、下面進行mapreduce的編寫操作:

具體的程式碼如下(程式碼內有註釋):

WcMapper.java:

package wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

//Longwritable是行首在檔案中的偏移量
public class WcMapper extends Mapper<LongWritable, Text,Text, IntWritable> {
    private Text word=new Text();
    private IntWritable one=new IntWritable(1);
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
       //拿到這一行資料
        String line = value.toString();
        //按照空格進行切分
        String[] words=line.split(" ");
        //遍歷陣列,將單詞變成(word,1)的形式
        for (String word :words)
        {
            this.word.set(word);
            context.write(this.word,this.one);
        }

    }
}

 WcReducer.java

package wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

//reduce輸入的是map輸出的
public class WcReducer extends Reducer<Text, IntWritable,Text, IntWritable> {
    private IntWritable total=new IntWritable();
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum=0;
        for(IntWritable value:values)
        {
            sum +=value.get();
        }
        //包裝結果並輸出
        total.set(sum);
        context.write(key,total);
    }
}

WcDriver.java

package wordcount;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.Job;

import java.io.IOException;

public class WcDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        //1、獲取一個job例項
        Job job=Job.getInstance(new Configuration());
        //2、設定我們的類路徑
        job.setJarByClass(WcDriver.class);
        //3、進行map和reduce的設定
        job.setMapperClass(WcMapper.class);
        job.setReducerClass(WcReducer.class);
        //4、設定mapper和reducer的輸出的型別
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //5、設定輸入和輸出的資料
        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        //6、提交我們的設定
        boolean b=job.waitForCompletion(true);
        System.exit(b ? 0:1);
    }

}

 之後找到其輸入的檔案,以及確定上輸出的檔案。

之後執行結果如下:

檔案執行成功:

原來的輸入檔案如下: