MapReduce程式設計模型

MapReduce將整個執行過程分為兩個階段： Map階段和Reduce階段

Map階段由一定數量的Map Task組成
輸入資料格式解析： InputFormat
輸入資料處理： Mapper
資料分組： Partitioner

Reduce階段由一定數量的Reduce Task組成
資料遠端拷貝
資料按照key排序
資料處理：Reducer
資料輸出格式：OutputFormat

Map階段
InputFormat（預設TextInputFormat）
Mapper
Combiner（local Reducer）
Partitioner
Reduce階段
Reducer
OutputFormat（預設TextOutputFormat）

Java程式設計介面

Java程式設計介面組成；
舊API：所在java包： org.apache.hadoop.mapred
新API：所在java包： org.apache.hadoop.mapreduce
新API具有更好的擴充套件性；

兩種程式設計介面只是暴露給使用者的形式不同而已，內部執行引擎是一樣的；

Java新舊API

從Hadoop1.0.0開始，所有發行版均包含新舊兩類API；

例項1： WordCount問題

WordCount問題—map階段

WordCount問題—reduce階段

WordCount問題—mapper設計與實現

WordCount問題—reducer設計與實現

WordCount問題—資料流

示例程式碼

package com.vip;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 單詞統計
 * @author huang
 *
 */
public class WordCountTest {

	public static class MyMapper extends Mapper<Object, Text, Text, IntWritable>{
		//先來定義兩個輸出，k2,v2
		Text k2 = new Text() ;
		IntWritable v2 = new IntWritable() ;
		
		/*
		 * hello you
		 * hello me
		 * 
		 * 1.<k1,v2> 就是<0,hello you>,<10,hello me>這樣得形式
		 * 通過map函式轉換為
		 * 2.<k2,v2>--> <hello,1><you,1><hello,1><me,1>
		 * */
		
		@Override
		protected void map(Object key, Text value, Context context)
				throws IOException, InterruptedException {
			//對每一行得資料進行處理，拿到單詞
			String[] words = value.toString().split(" ");
			for (String word : words) {
				k2.set(word);			//word就是每行得單詞
				v2.set(1);				//每個單詞出現得次數就是1
				context.write(k2, v2);	//輸出
			}
		}
	}
	//3.對輸出得所有得k2，v2進行分割槽partition
	//4.通過shuffle階段之後結果是<hello,{1,1}><me,{1}><you,{1}>
	//3,4階段都是hadoop框架本身幫我們完成了
	//reduce
	public static class MyReduce extends Reducer<Text, IntWritable, Text, IntWritable>{
		
		@Override
		protected void reduce(Text key, Iterable<IntWritable> values,
				Context context) throws IOException, InterruptedException {
			//先來定義兩個輸出
			IntWritable v3 = new IntWritable() ;
			int count = 0 ;
			for (IntWritable value : values) {
				count += value.get() ;
			}
			v3.set(count);
			//輸出結果資料
			context.write(key, v3);
		}
	}
	
	//我們已經完成了主要得map和reduce的函式編寫，把他們組裝起來交給mapreduce去執行
	public static void main(String[] args) throws Exception {
		//載入配置資訊
		Configuration conf = new Configuration() ;
		//設定任務
		Job job = Job.getInstance(conf, "word count") ;
		job.setJarByClass(WordCountTest.class);
		
		//指定job要使用得mapper/reducer業務類
		job.setMapperClass(MyMapper.class);
		job.setReducerClass(MyReduce.class);
		
		//指定最終輸出得資料得kv型別
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		//指定job得輸入原始檔案所在目錄
		FileInputFormat.addInputPath(job, new Path(args[0]));
		//指定job得輸出結果所在目錄
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		System.exit(job.waitForCompletion(true)?0:1) ;
	}	
}

package com.vip;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

//求最大值
public class MapReduceCaseMax extends Configured implements Tool{

	//編寫map
	public static class MaxMapper extends Mapper<Object, Text, LongWritable, NullWritable>{
		//定義一個最小值
		long max = Long.MIN_VALUE ;
		@Override
		protected void map(Object key, Text value, Context context)
				throws IOException, InterruptedException {
			//切割字串,預設分隔符空格，製表符
			StringTokenizer st = new StringTokenizer(value.toString()) ;
			while(st.hasMoreTokens()){
				//獲取兩個值
				String num1 = st.nextToken() ;
				String num2 = st.nextToken() ;
				//轉換型別
				long n1 = Long.parseLong(num1) ;
				long n2 = Long.parseLong(num2) ;
				//判斷比較
				if(n1 > max){
					max = n1 ;
				}
				if(n2 > max){
					max = n2 ;
				}
			}
		}
		
		//
		@Override
		protected void cleanup(Context context)
				throws IOException, InterruptedException {
			context.write(new LongWritable(max), NullWritable.get());
		}
	}
	
	@Override
	public int run(String[] args) throws Exception {
		/*設定任務和主類*/
		Job job = Job.getInstance(getConf(), "MaxFiles") ;
		job.setJarByClass(MapReduceCaseMax.class);
		
		/*設定map方法的類*/
		job.setMapperClass(MaxMapper.class);
		
		/*設定輸出的key和value的型別*/
		job.setOutputKeyClass(LongWritable.class);
		job.setOutputValueClass(NullWritable.class);
		
		/*設定輸入輸出引數*/
		FileInputFormat.addInputPath(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		/*提交作業到叢集並等待任務完成*/
		boolean isSuccess = job.waitForCompletion(true);
		
		return isSuccess ? 0 : 1 ;
	}
	
	public static void main(String[] args) throws Exception {
		int res = ToolRunner.run(new MapReduceCaseMax(), args) ;
		System.exit(res);
	}
}
 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    大資料（hadoop-mapreduce程式碼及程式設計模型講解）
      
                                        
                                                
MapReduce程式設計模型 
MapReduce將整個執行過程分為兩個階段： Map階段和Reduce階段 
Map階段由 

  
 

    

    
    大資料（hadoop-mapreduce程式設計應用）
      
                                        
                                                package demo;
import  java.io.*;
import org.apache.hadoop.*;
i 

  
 

    

    
    從Storm到Flink：大資料處理的開源系統及程式設計模型（文末福利）
       
 
  
  
  
   本文節選自CCF大資料教材系列叢書之《大資料處理》，本書由華中科技大學金海教授主編，包括大資料處理基礎技術、大資料處理程式設計與典型應用處理、大資料處理系統與優化三個方面。本教材以大資料處理程式設計為核心，從基礎、程式設計到優化等多個方面對大資料處理技術進行系統介紹，使得讀者能 

  
 

    

    
    大資料（hadoop-mapreduce案例講解）
      
                                        
                                                package com.vip;

import java.io.IOException;
import java.util 

  
 

    

    
    大資料（hadoop-小檔案合併、Mapreduce原理）
      
                                        
                                                
hadoop-小檔案合併 
package com.andy.merge;

import org.apache.hadoo 

  
 

    

    
    分享知識-快樂自己：Liunx-大資料（Hadoop）初始化環境搭建
      大資料初始化環境搭建： 
一）：大資料（hadoop）初始化環境搭建 
二）：大資料（hadoop）環境搭建 
三）：執行wordcount案例 
四）：揭祕HDFS 
五）：揭祕MapReduce 
六）：揭祕HBase 
七）：HBase程式設計 
---------------------------- 

  
 

    

    
    分享知識-快樂自己：大資料（hadoop）環境搭建
      大資料 hadoop 環境搭建： 
一）：大資料（hadoop）初始化環境搭建 
二）：大資料（hadoop）環境搭建 
三）：執行wordcount案例 
四）：揭祕HDFS 
五）：揭祕MapReduce 
六）：揭祕HBase 
七）：HBase程式設計 
----------------------- 

  
 

    

    
    《機器學習實戰》第2章閱讀筆記3 使用K近鄰演算法改進約會網站的配對效果—分步驟詳細講解1——資料準備：從文字檔案中解析資料（附詳細程式碼及註釋）
       
 
  本篇使用的資料存放在文字檔案datingTestSet2.txt中，每個樣本資料佔據一行，總共有1000行。 
 樣本主要包含以下3中特徵： 
 （1）每年獲得飛行常客里程數 
 （2）玩視訊遊戲所耗時間百分比 
 （3）每週消費的冰淇淋公升數 
 在使用分類器之前，需要將處理的檔案格式 

  
 

    

    
    大資料1-Hadoop架構體系及在各方面的應用
      
								
								            
						
                
hadoop中Hbase就是Google
 BigTable的開源實現.
而在Hadoop架構體系中Hbase用作資料的儲存。
Hadoop體系架構：




資料處理平臺的基礎架構：



大資料的 

  
 

    

    
    大資料（hadoop-自定義資料型別、檔案格式）
      
                                        
                                                
自定義InputFormat 
 

OutputFormat 
 
示例程式碼 
package com.vip09;

 

  
 

    

    
    大資料（hadoop分散式搭建和yarn）
      
                                        
                                                
分散式搭建步驟 
1：克隆一臺機器完成後，按以下步驟進行修改（作為源克隆主機）     1）修改網 

  
 

    

    
    大資料（hadoop-flume的原理架構）
      
                                        
                                                
背景介紹 
Hadoop提供了一箇中央化的儲存系統    有利於進行集中式的資料分析與資料共享 
Hadoo 

  
 

    

    
    大資料（hadoop-flume案例講解）
      
                                        
                                                 
 
a2.cnf 
#定義agent名稱，source，channel，sink的名稱
#a1就是我們給agent起的名字， 

  
 

    

    
    大資料（hadoop-資料入庫系統Sqoop原理架構）
      
                                        
                                                
Sqoop是什麼 
 
Sqoop：SQL-to-Hadoop 
連線傳統關係型資料庫和Hadoop的橋樑   &nb 

  
 

    

    
    大資料之Hadoop學習——動手實戰學習MapReduce程式設計例項
       
 
  
  
 
 
  文章目錄
  
   
    一、MapReduce程式設計例項
    
     1.自定義物件序列化
     
      需求分析
      報錯：Exception in thread "main" java.lang.IllegalArgumentExcept 

  
 

    

    
    大資料之Hadoop（MapReduce（四））------->企業優化
      
                
6.1 MapReduce 跑的慢的原因
Mapreduce 程式效率的瓶頸在於兩點：
1）計算機效能
       CPU、記憶體、磁碟健康、網路
2）I/O 操作優化
（1）資料傾斜
（2）map和reduce數設定不合理
（3）reduce等待過久
（4）小檔案過多
 

  
 

    

    
    網路程式設計基礎【day09】：socket接收大資料（五）
      本節內容 
1、概述 
2、socket接收大資料 
3、中文字元的坑 
一、概述 
　　上篇部落格寫到了，就是說當伺服器傳送至客戶端的資料，大於客戶端設定的資料，則就會把資料服務端發過來的資料剩餘資料存在IO緩衝區中，那我們如何解決這個問題呢？ 
　　有的同學就說了： 
 
 改大客戶端接收的資料的大小=& 

  
 

    

    
    大資料（十五）：Hadoop資料壓縮與壓縮/解壓縮例項
       
 
 一、資料壓縮 
 1.概論 
         壓縮技術能夠有效減少低層儲存系統（HDFS）讀寫位元組。壓縮提高了網路頻寬和磁碟空間的效率。在Hadoop下，尤其是資料規模很大和工作負載密集的情況下。使用資料壓縮閒的非常重要。在這種情況下，I/O操作 

  
 

    

    
    大資料（二十二）：hive分桶及抽樣查詢、自定義函式、壓縮與儲存
       
 
 一、分桶及抽樣查詢 
 1.分桶表資料儲存 
         分割槽針對的是資料儲存路徑（HDFS中表現出來的便是資料夾），分桶針對的是資料檔案。分割槽提供一個隔離資料和優化查詢的便利方式。不過，並非所有的資料集都可形成合理的分割槽，特別是當資料要 

  
 

    

    
    大資料之Hadoop學習（環境配置）——Hadoop偽分散式叢集搭建
       
 
  
  
  
 title: Hadoop偽分散式叢集搭建 date: 2018-11-14 15:17:20 tags: Hadoop categories: 大資料 點選檢視我的部落格: Josonlee’s Blog 
  
 
 
  文章目錄
  
   
    前言準備
    偽分