Hadoop2.7.3 mapreduce（一）原理及"hello world"例項

阿新 • • 發佈：2019-02-01

MapReduce程式設計模型

【1】先對輸入的資訊進行切片處理。

【2】每個map函式對所劃分的資料並行處理，產生不同的中間結果輸出。

【3】對map的中間結果資料進行收集整理（aggregate & shuffle）處理，交給reduce。

【4】reduce進行計算最終結果。

【5】彙總所有reduce的輸出結果。

【名詞解釋】

ResourceManager：是YARN資源控制框架的中心模組，負責叢集中所有的資源的統一管理和分配。它接收來自NM(NodeManager)的彙報，建立AM，並將資源派送給AM(ApplicationMaster)。

NodeManager：簡稱NM，NodeManager是ResourceManager在每臺機器的上代理，負責容器的管理，並監控他們的資源使用情況（cpu，記憶體，磁碟及網路等），以及向 ResourceManager提供這些資源使用報告。

ApplicationMaster：以下簡稱AM。YARN中每個應用都會啟動一個AM，負責向RM申請資源，請求NM啟動container，並告訴container做什麼事情。

Container：資源容器。YARN中所有的應用都是在container之上執行的。AM也是在container上執行的，不過AM的container是RM申請的。

【用Java來實現WordCount單詞計數的功能】

package com.yc.hadoop42_003_mapreduce;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MyWordCount {

        //Mapper靜態內部類
	public static class MyWordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

		public static final IntWritable ONE = new IntWritable(1);

		@Override
		protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
				throws IOException, InterruptedException {
			//按空格分割，map預設的value是每一行
			String[] words = value.toString().split("\\s");

			for (String word : words) {
				context.write(new Text(word), ONE);
			}
		}
	}

        //Reducer靜態內部類
	public static class MyWordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

		@Override
		protected void reduce(Text key, Iterable<IntWritable> value,
				Reducer<Text, IntWritable, Text, IntWritable>.Context context)
				throws IOException, InterruptedException {
			int count = 0;
			for (IntWritable v : value) {
				count += v.get(); // 統計單詞個數
			}
			context.write(new Text(key), new IntWritable(count));
		}
	}

	public static void main(String[] args) throws Exception {

		Configuration conf = new Configuration(); // 配置檔案物件
		Job job = Job.getInstance(conf, "mywordCount"); // mapreduce作業物件

		// 設定map操作
		job.setMapperClass(MyWordCountMapper.class);	//設定map處理類
		job.setMapOutputKeyClass(Text.class);	//設定拆分後，輸出資料key的型別
		job.setMapOutputValueClass(IntWritable.class);	//設定拆分後，輸入資料value的型別

		// 設定reduce操作
		job.setReducerClass(MyWordCountReducer.class);	//設定reduce處理類 
						//這裡reduce輸入輸出格式一致，不需要再次設定

		// 設定輸入輸出
		FileInputFormat.setInputPaths(job, new Path("hdfs://master:9000/in/data03.txt"));// 設定處理資料檔案的位置
		FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/result"));// 設定處理後文件的存放位置

		// 開始執行mapreduce作業
		job.waitForCompletion(true);
	}
}

【結果】

Hadoop2.7.3 mapreduce（一）原理及"hello world"例項

MapReduce程式設計模型【1】先對輸入的資訊進行切片處理。【2】每個map函式對所劃分的資料並行處理，產生不同的中間結果輸出。【3】對map的中間結果資料進行收集整理（aggregate & shuffle）處理，交給reduce。【4】reduce進

Hadoop2.7.3 mapreduce（五）詳解

一、為什麼使用Mapreduce? MapReduce是為了解決傳統HPC框架在面對海量資料時擴充套件困難而產生的。 MapReduce致力於解決大規模資料處理的問題，利用區域性性原理將整個問題分而治之。 MapReduce叢集由普通PC機構成，為無共享式架構。在處理之前，

【深度學習】線性迴歸（一）原理及python從0開始實現

文章目錄線性迴歸單個屬性的情況多元線性迴歸廣義線性模型實驗資料集介紹相關連結 Python實現環境編碼

影象超解析度重構（一）原理及方法總結

超解析度（Super-resolution）概念理解：百科：超解析度(Super-Resolution)通過硬體或軟體的方法提高原有影象的解析度，通過一系列低解析度的影象來得到一幅高解析度的影象過

iOS下OpenGL ES 3.0程式設計入門（一）：構建Hello World環境

OpenGL ES簡介： OpenGL ES (OpenGL for Embedded Systems) 是 OpenGL三維圖形 API 的子集，針對手機、PDA和遊戲主機等嵌入式裝置而設計。該API由Khronos集團定義推廣，Khronos是一個圖形軟硬體

ASP.NET MVC入門（一）---MVC的Hello World

簡單的MVC Hello world，著重處理Controller。 Step1 建立一個Asp.Net MVC 5專案開啟Visual studio 2013 點“檔案”->新建->專案。 Step 1.2 選擇Web 應用，輸入專案名稱，選擇存放路徑

IDEA從0搭建SSM專案【圖文】（一）——本地執行Hello World

記得初學SSM時，跟著網上的教程走，一步一坑，為了讓更多的初學者體驗一次搭建好SSM的快感，本人利用工作之餘撰寫此篇教程。一，環境準備 1.IDEA工具 2.maven ① 配置到環境變數 ② 將maven新增到IDEA 圖中Local reposit

Spring學習筆記（一）Spring的Hello World！

開發工具版本：Eclipse：eclipse-jee-luna-SR2-win32-x86_64：4.4.2Spring： 4.38JDK ：1.8Tomcat： 7.0.57Spring 架包：其中commons-loggingIOC和AOP-1.2.jar 這個是spri

配置MapReduce插件時，彈窗報錯org/apache/hadoop/eclipse/preferences/MapReducePreferencePage : Unsupported major.minor version 51.0（Hadoop2.7.3集群部署）

ava 不一致 nbsp 1.0 log class dll blog 無效原因： hadoop-eclipse-plugin-2.7.3.jar 編譯的jdk版本和eclipse啟動使用的jdk版本不一致導致。解決方案一：修改myeclipse.ini文件

OkHttp 3.7原始碼分析（一）——整體架構

OkHttp是一個處理網路請求的開源專案,是Android端最火熱的輕量級框架,由移動支付Square公司貢獻用於替代HttpUrlConnection和Apache HttpClient。隨著OkHttp的不斷成熟，越來越多的Android開發者使用OkHtt

【原創 Hadoop&Spark 動手實踐 3】Hadoop2.7.3 MapReduce理論與動手實踐

pack license 讀取 rgs 理論程序員開發 -s 接口 pri 開始聊MapReduce，MapReduce是Hadoop的計算框架，我學Hadoop是從Hive開始入手，再到hdfs，當我學習hdfs時候，就感覺到hdfs和mapreduce關系的緊密。這個

MyEclipse WebSphere開發教程：WebSphere 7安裝指南（一）

develop 技術分享 thum server file enter 操作系統更多 launchpad 【周年慶】MyEclipse個人授權折扣低至冰點！立即開搶>> 【MyEclipse最新版下載】一、先決條件和系統信息想要使用WebSphere

linux 內核內存管理 slub算法（一）原理

orm line mic 內存管理內存 ria linu -i ims http://blog.csdn.net/lukuen/article/details/6935068linux 內核內存管理 slub算法（一）原理

BGP（一）——原理精講及內外部鄰居配置

BGPBGP概述一、BGP/BGP4：Border Gateway Protocol，邊界網關協議是一種基於距離矢量算法的自治系統之間的路由。二、BGP並非要找到具體的網絡信息，而是提供可以用與找到自治系統的信息。而運行於自治系統內部的路由協議，用於找到

python實現線性回歸（一）原理

函數乘法學習偏移量 python實現機器線性計算梯度線性回歸是機器學習的基礎，用處非常廣泛，在日常工作中有很大作用。 1.什麽是線性回歸通過多次取點，找出符合函數的曲線，那麽就可以完成一維線性回歸。 2.數學表示是截距值，為偏移量。因為單純計算多項

PyQt5 GUI Programming With Python 3.6 （一）

PyQt5 PyQt5是一個基於強大的圖形程式框架Qt5的python介面，主要包含以下幾個大類： ● QtCore　　 ● QtGui ● QtWidgets ● QtMultimedia ● QtBluetooth ● QtNetwork ● QtPositioning ● E

網路通訊webSocket（一）原理

對於開發者的我來講，大部分專案都需要用到聊天功能，例如單聊，群聊，分組，通訊等。而這一切都基於socket，那具體socket指的是啥？下面就具體好好寫寫吧。要了解什麼是socket，得先掌握TCP/IP協議與Http協議。首先Http協議，是超文字傳輸協議，沒有狀態的，也是屬於短連結對應於

【轉】Storm入門（一）原理介紹

問題導讀：1.hadoop有master與slave，Storm與之對應的節點是什麼？ 2.Storm控制節點上面執行一個後臺程式被稱之為什麼？ 3.Supervisor的作用是什麼？ 4.Topology與Worker之間的關係是什麼？ 5.Nimbus和Supervisor之間的所有協調工作有m

【更新】CLion v2018.3釋出（一）：初始遠端開發支援

下載CLion最新版本 CLion是一款專為開發C及C++所設計的跨平臺IDE。它是以IntelliJ為基礎設計的，包含了許多智慧功能來提高開發人員的生產力。這種強大的IDE幫助開發人員在Linux、OS X和Windows上來開發C/C++，同時它還使用智慧編輯器來提高程式碼質量、自動程式碼重構並且深

Lua原始碼分析 Gc篇（一）原理

前言原理 mark階段 sweep階段三種顏色資料流參考前言已經有很多人寫了gc原始碼分析的文章了，自己為啥還要繼續寫呢？最主要的原因有兩個： 1.純屬對於個人來說，寫東西能夠加深自己的理解和記

Hadoop2.7.3 mapreduce（一）原理及"hello world"例項

相關推薦