MapReduce平行計算框架

阿新 • • 發佈：2018-12-09

1.思想：分而治之

map：對每一部分資料進行處理

reduce：合併

2.資料流動的形式是<key,value>

Map階段由一定數量的Map Task組成

*輸入資料格式解析：InputFormat

*輸入資料處理：Mapper

*資料分組：Partitioner

Reduce階段由一定數量的Reduce任務組成

*資料遠端拷貝

*資料按照Key排序

*資料處理:Reducer

*資料輸出格式：OutputFormat

3.編寫MapReduce程式

1.pom.xml

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>

  <groupId>com.hadoop</groupId>
  <artifactId>mapreduce</artifactId>
  <version>0.0.1-SNAPSHOT</version>
  <packaging>jar</packaging>

  <name>mapreduce</name>
  <url>http://maven.apache.org</url>

  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
  </properties>

  <dependencies>
    <dependency>
    	<groupId>org.apache.hadoop</groupId>
    	<artifactId>hadoop-client</artifactId>
    	<version>2.5.0</version>
    	
    </dependency>
    <dependency>
    	<groupId>junit</groupId>
    	<artifactId>junit</artifactId>
    	<version>4.10</version>
    	
    </dependency>
  </dependencies>
</project>

2.src/main/resources

匯入

3.指定輸出

4.將hadoop裡面配置好的4個xml檔案複製到src/main/resources

cp core-site.xml hdfs-site.xml mapred-site.xml yarn-site.xml /root/workspace/mapreduce/src/main/resources/

refresh一下src/main/resources這個資料夾

最後確認基本環境沒有問題，執行一下自帶的程式碼

好了，可以開始真正的MapReduce部分的程式碼啦

八股文寫程式碼

map：(k1,v1)->list(k2,V2)

reduce:(K2,list(v2)) ->list(K3,V3)

Context是上下文物件

mapper<longWritable,Text,Text,IntWritable>

longWritable是偏移量 Text是每行型別，對應java中的string

Text,IntWritable 檔案中的key，value型別對應string和int

注意，map的輸出結果就是reduce的輸入結果

map程式碼中比較好的兩個地方：將value設定為常量1

不使用split函式太耗記憶體寫程式碼的時候集中注意力到map和reduce函式即可

package com.hadoop.mapreduce;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {
	//step1 map class
	public static class WordCountMapper extends Mapper<LongWritable,Text,Text,IntWritable>{
		private Text mapOutputKey = new Text();
		private final static IntWritable mapOutputValue = new IntWritable(1);
		@Override
		public void map(LongWritable key, Text value,
				org.apache.hadoop.mapreduce.Mapper.Context context)
				throws IOException, InterruptedException {
			//line value
			String lineValue = value.toString();
			//split
			//lineValue.split(" "); 
			StringTokenizer strT = new StringTokenizer(lineValue);
			//iterator
			while(strT.hasMoreTokens()){
				String wordValue= strT.nextToken();
				mapOutputKey.set(wordValue);
				context.write(mapOutputKey, mapOutputValue);
			}
			
		}
	}
	//step2 reduce class
	public static class WordCountReducer  extends Reducer<Text,IntWritable,Text,IntWritable>{
		private IntWritable reduceOutputValue = new IntWritable();
		@Override
		public void reduce(Text key, Iterable<IntWritable> values,
				Context context)
				throws IOException, InterruptedException {
			//sum
			int sum = 0;
			//iterator
			for (IntWritable value:values){
				sum += value.get();
			}
			reduceOutputValue.set(sum);
			context.write(key, reduceOutputValue);
		}
	}
	//step3 driver class 
	public void run(String[] args) throws Exception{
		//1.get configuration
		Configuration conf = new Configuration();
		//2.create job
		Job job = Job.getInstance(conf,this.getClass().getSimpleName());
		//run jar
		job.setJarByClass(this.getClass());
		//set job input->map->reduce->output
		Path inpath = new Path(args[0]);
		FileInputFormat.addInputPath(job, inpath);
		//map
		job.setMapperClass(WordCountMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		//reduce
		job.setReducerClass(WordCountReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		//output
		Path outPath = new Path(args[1]);
		FileOutputFormat.setOutputPath(job, outPath);
		//submit
		boolean isSuccess = job.waitForCompletion(true);
		if (isSuccess){
			System.out.println("success");
		}else{
			System.out.println("fail");
		}
	}
	public static void main(String[] args) throws Exception {
		new WordCount().run(args);
		
	}
}

4.測試執行

選擇main class 打包完了以後新增許可權 chmod u+x wordCount.jar

bin/yarn jar jars/wordCount.jar inpath outpath

【Hadoop】MapReduce平行計算框架

MapReduce平行計算框架基本知識前言核心概念計算模型系統架構作業配置計算流程與機制作業提交和初始化 Mapper Reducer

MapReduce平行計算框架

1.思想：分而治之 map：對每一部分資料進行處理 reduce：合併 2.資料流動的形式是<key,value> 1. Map階段由一定數量的Map Task組成 *輸入資料格式解析：InputFormat *輸入資料處理：Mapper *資料分

平行計算框架

概念框架與引擎批處理框架流處理框架混合處理框架 MapReduce Hadoop 基本處理過程優勢和侷限

JPPF平行計算框架類載入機制研究

不算什麼深入的研究，主要是瞭解下JPPF中類的載入和隔離機制。 JPPF中類的載入採用的是分散式類載入技術。這樣既可在Node節點執行在node上並不存在的類。也就是類可以僅在使用者的Client端存在。如圖，JPPF的cla

平行計算框架JPPF3.3.4試用

先說一個挺有意思的事情，就在OneCoder準備記錄試用過程的時候，給大家截圖下載頁面的時候，發現最新版本變成3.3.4了。於是，我也只好重新下載了：）想要執行JPPF平行計算任務，需要至少一個Node節點(執行任務的節點)，一個dr

qt平行計算框架QtConcurrent和qt全域性執行緒池

在qt中使用多執行緒除了使用QThread類之外，還有就是使用QtConcurrent框架和QRunable類(學java的都知道，在qt中的用法也和java一樣)。

java7平行計算框架Fork/Join

拆分fork+合併join。jdk1.7整合Fork/Join，效能上有大大提升。思想:充分利用多核CPU把計算拆分成多個子任務，平行計算，提高CPU利用率大大減少運算時間當你在ForkJoinPool中執行ForkJoinTask時，你可以使用同步或非

[OSDI 12] PoweGraph: 分散式圖平行計算框架學習總結

今天要講的文章是OSDI 2012年的一篇文章，PowerGraph：Distributed Graph-Parallel Computation on Natural Graphs。本文主要想解決的問題就是：現有的圖資料，如社交網路、Web網頁等都是一種Po

分布式計算框架MapReduce

Hadoop MapReduce 大數據分布式計算框架 JobHistory MapReduce概述 MapReduce源自Google的MapReduce論文，論文發表於2004年12月。Hadoop MapReduce可以說是Google MapReduce的一個開源實現。MapRe

基於HDFS的MapReduce計算框架

&#160學習MapReduce的原理(https://blog.csdn.net/Chris_MZJ/article/details/83099262)之後，我們來看看MapReduce是如何在HDFS叢集上實現的。分散式計算框架的思

大資料之hadoop分散式計算框架MapReduce

一、MapReduce構成 MapReduce分為兩部分，即map和reduce。其中map是入隊（key，value），reduce則是聚合（計算）。 map過程的輸出時reduce過程的輸入。需要注意的是這裡map中的key是可以重複的，reduce做聚

Java平行計算Fork/Join框架使用

背景介紹假如目前有個需求，計算1000個數字之和，此需求是不是很簡單，一次迴圈，即可完成計算；但如果是計算100W甚至更多的呢？當然，此時的迴圈依然可以達到目的，但效率就不敢恭維；同時，如果此時有個需求，需要統計100個檔案中某個單詞出現的次數呢？最直接的辦

大資料時代之hadoop(五)：hadoop 分散式計算框架（MapReduce）

hadoop的核心分為兩塊，一是分散式儲存系統-hdfs，這個我已經在上一章節大致講了一下，另一個就是hadoop的計算框架-mapreduce。 mapreduce其實就是一個移動式的基於key-value形式的分散式計算框架。

MapReduce計算框架

默認 values 演示有序復雜接下來包括用戶 com 2019/2/18 星期一 MapReduce計算框架Mapreduce 是一個分布式的運算編程框架，核心功能是將用戶編寫的核心邏輯代碼分布式地運行在一個集群的很多服務器上；為什麽要MAPREDUCE（1）

MapReduce計算框架高級特性程序運行並發度

現在需要我們 file 輸入單詞特性高級特性 tin 2019/2/19 星期二 MapReduce計算框架高級特性程序運行並發度所謂的並發度，就是在MapReduce執行程序的過程中有多少個map task進程和reduce task進程，來一起完成程序的處理

拉開大變革序幕（下）：分布式計算框架與大數據

ble itl skip 下一代 .bashrc add sum 輸出 sda 由於對大數據處理的需求。使得我們不斷擴展計算能力，集群計算的要求導致分布式計算框架的誕生。用便宜的集群計算資源在短短的時間內完畢以往數周甚至數月的執行等待，有人說誰掌握了龐大

一文讀懂大數據計算框架與平臺

ddr 不同失敗克服可定制同時數據庫引擎後處理 alc 　1.前言　　計算機的基本工作就是處理數據，包括磁盤文件中的數據，通過網絡傳輸的數據流或數據包，數據庫中的結構化數據等。隨著互聯網、物聯網等技術得到越來越廣泛的應用，數據規模不斷增加，TB、PB量級成為常

MapReduce和YARN框架

圖片 markdown clas 框架 gpo image reduce pre down MapReduce組件如圖 MapReduce和YARN框架

storm 流式計算框架

大數據 storm 流式計算一：storm 簡介二：storm 的原理與架構三：storm 的安裝配置四：storm 的啟動腳本一： storm 的簡介： 1.1 storm 是什麽： 1. Storm是Twitter開源的分布式實時大數據處理框架，被業界稱為實時版Hadoo

深度學習計算框架實現

並行方框向下取整靈活非線性 soft 卷積了解通道參考與評述參考書目《Deep Learning》Lan Goodfellow. 經典的深度學習框架是以計算圖&梯度下降方法實現對前饋網絡的有監督學習。這裏復現了前饋計算圖的梯度計算實現。一、前饋

MapReduce平行計算框架

1.思想：分而治之

2.資料流動的形式是<key,value>

3.編寫MapReduce程式

4.測試執行

相關推薦