hadoop上的兩種執行mapreduce程式的方法

阿新 • • 發佈：2019-01-30

之前學習了一段時間的hadoop的相關知識，學習理論基礎的時候要同時實際操作才能對它更熟練，廢話不多說來說說在hadoop上執行一個最簡單的words count的程式

首先我先貼上這個程式的原始碼供大家參考程式碼分為三個部分寫的Run、 map階段、 reduce階段

Map：

package wordsCount;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WordsMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
			throws IOException, InterruptedException {
		
		String line = value.toString();
		StringTokenizer st = new StringTokenizer(line);
		while(st.hasMoreTokens()){
			String word = st.nextToken();
			context.write(new Text(word), new IntWritable(1));
		}
		
	}

}

Reduce：

package wordsCount;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WordsReduce extends Reducer<Text, IntWritable, Text, IntWritable>{
	
	@Override
	protected void reduce(Text key, Iterable<IntWritable> iterator,
			Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
		// TODO 自動生成的方法存根
		int sum = 0;
		for(IntWritable i:iterator){
			sum = sum + i.get();
		}
		context.write(key, new IntWritable(sum));
	}
}

Run：

package wordsCount;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class Run {

	public static void main(String[] args) throws Exception{
		// TODO 自動生成的方法存根
		Configuration configuration = new Configuration();
		Job job = new Job(configuration);
		job.setJarByClass(Run.class);
		job.setJobName("words count!");
		
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		job.setInputFormatClass(TextInputFormat.class);
		job.setOutputFormatClass(TextOutputFormat.class);
		
		job.setMapperClass(WordsMapper.class);
		job.setReducerClass(WordsReduce.class);
		
		FileInputFormat.addInputPath(job, new Path("hdfs://192.168.1.111:9000/user/input/wc/"));
		FileOutputFormat.setOutputPath(job,new Path("hdfs://192.168.1.111:9000/user/result/"));

		job.waitForCompletion(true);
	}
}

Run裡面的輸入和輸出路徑根據自己的來修改

這個程式就不用去講解了吧到處都能找到

首先在hadoop上執行這個程式用兩個方法

方法一：將自己的編譯軟體與hadoop相連（我用的是MyEclipse去連結hadoop），直接執行程式。MyEclipse連線hadoop的教程待會我會在文章結尾處給出一個連結供大家參考。

看到下面的資訊就表示你成功了然後你在再到你的輸出資料夾裡面就能檢視執行的結果了

第二個檔案裡面的內容就是輸出結果

第二種方法：將mapreduce程式打包成jar檔案

這裡簡單的說一下打包的方法

然後下一步，完成就可以了

將打包好的jar檔案傳到你的裝hadoop的機器上（我的hadoop叢集是裝在linux虛擬機器中的）用SSH把jar傳過去之後：

在你安裝hadoop的目錄下的bin目錄下有一個hadoop的可執行檔案，然後執行下面的操作就可以了：

來解釋下我的shell語句

/home/xiaohuihui/wordscount.jar:打包之後的jar檔案的所在位置（傳到虛擬機器中位置）

wordsCount/Run:這個位你的jar包中的主函式（這裡的主函式就是Run.class）的名字可以開啟你的jar檔案檢視便知道

還可以在這個語句之後加上你的輸入和輸出的檔案路徑，但是這個我已經在我的程式中設定了

如果你執行上面的shell語句之後看到下面的輸出，那恭喜你，成功了！！

檢視結果你可通過在你的Eclipse連線好hadoop檢視，還可以通過在hdfs檔案系統的網頁去檢視（localhost：50070）。

還有一個很重要的一步就是，執行之前保證你的hadoop已經啟動了，可以通過jps來檢視你的程序中是否已經啟動hadoop叢集

Eclipse連線hadoop：http://blog.csdn.net/xjavasunjava/article/details/12320045

hadoop上的兩種執行mapreduce程式的方法

之前學習了一段時間的hadoop的相關知識，學習理論基礎的時候要同時實際操作才能對它更熟練，廢話不多說來說說在hadoop上執行一個最簡單的words count的程式首先我先貼上這個程式的原始

在myeclipse上連線hadoop-2.8.0 執行mapreduce程式

首先 hadoop叢集是要先搭建的沒的說。可以先在hadoop上執行自帶的mapreduce jar包，跑一下，不成功說明配置檔案沒有配置好，這裡就不說配置哪些了，網上很多。 1.在windows下下載hadoop-2.8.0.tar.gz 並且解壓 2.下載 &n

hadoop 2.2.0 執行MapReduce程式

環境： 2臺虛擬機器搭建Hadoop環境系統Fedora 10 Hadoop 2.2.0 準備工作： 1、Hadoop 2.2.0 環境配置執行 2、建立Hdfs的輸入資料夾和輸入檔案： hadoop fs -copyFromLoca

偽分散式執行Hadoop例項之HDFS執行MapReduce程式

一、前期準備準備一臺客戶機安裝jdk 配置環境變數安裝Hadoop 配置環境變數二、配置叢集配置hadoop-env.sh檔案 cd /opt/module/hadoop-2.7.2/etc/hadoop vim hadoo

MapReduce兩種執行環境介紹：本地測試環境，服務器環境

拷貝本地測試 servle 第一個 host lang hdf ces ati 本地測試環境(windows)：1、在windows下配置hadoop的環境變量2、拷貝debug工具(winutils.exe)到hadoop目錄中的bin目錄，註意winutils.exe

偽分散式的搭建（YARN上執行MapReduce 程式）

偽分散式的搭建（YARN上執行MapReduce 程式） 1.啟動叢集 1.1在當前目錄下 1.2確保NameNode和DataNode已經啟動 1.3啟動ResourceManager 1.4啟動NodeManager

MapReduce的兩種執行環境：本地測試環境，伺服器環境

本地測試環境(windows)：1、在windows下配置hadoop的環境變數2、拷貝debug工具(winutils.exe)到hadoop目錄中的bin目錄，注意winutils.exe的版本要

MyBatis兩種執行XXXMapper.xml配置檔案中SQL語句的方法

一、SqlSession單例模式類 package cn.mybatis.Sql; import java.io.IOException; import java.io.InputStream; import org.apache.ibatis.i

spark在yarn上面的執行模型：yarn-cluster和yarn-client兩種執行模式:

Spark在YARN中有yarn-cluster和yarn-client兩種執行模式: I. Yarn Cluster Spark Driver首先作為一個ApplicationMaster在YARN叢集中啟動，客戶端提交給ResourceManager的每一個job

設計模式（01）單例模式（建立類模式）（上，兩種推薦的實現方法）

From Now On，Let us begin Design Patterns。單例模式定義確保某一個類只有一個例項，而且自行例項化並向整個系統提供這個例項。 Ensure a classhas only one instance, an

兩種進入容器的方法 - 每天5分鐘玩轉 Docker 容器技術（23）

工作技術啟動進程 gin attach ant while col -c 我們經常需要進到容器裏去做一些工作，比如查看日誌、調試、啟動其他進程等。有兩種方法進入容器：attach 和 exec。 docker attach 通過 docker attach 可以 a

介紹linux上兩種rootkits檢測工具

介紹linux上兩種rootkits檢測工具 Rootkit Hunter 中文名叫”Rootkit獵手”, 可以發現大約58個已知的rootkits和一些嗅探器和後門程序. 它通過執行一系列的腳本來確認你的機器是否已經感染rootkits. 比如檢查rootkits使用的基本文件, 可執行

Shell簡介：什麽是Shell，Shell命令的兩種執行方式

shell linuxShell本身是一個用C語言編寫的程序，它是用戶使用Unix/Linux的橋梁，用戶的大部分工作都是通過Shell完成的。Shell既是一種命令語言，又是一種程序設計語言。作為命令語言，它交互式地解釋和執行用戶輸入的命令；作為程序設計語言，它定義了各種變量和參數，並提供了許多在高級語言中

python兩種生成md5的方法

spa date hex clas pda upd hash tty digest 一. 使用md5包 import md5 src = ‘this is a md5 test.‘ m1 = md5.new() m1.update(src) print

python全棧脫產第34天------開啟進程的兩種方式、join方法、進程對象其他相關的屬性和方法、僵屍進程、孤兒進程、守護進程、互斥鎖

for roc -- don 操作 windows main 周期僵屍一、開啟進程的兩種方式　　方式一： from multiprocessing import Processimport timedef task(name): print(‘%s is run

Servlet中的兩種接收請求的方法

首先說一下，dopost和doget兩種方法都是來接收使用者請求的。但是還是有以下幾種區別 get：提交的資料大小有所限制；請求通過url位址列顯示 post：沒有大小的限制；通過http請求附件傳送（以下舉例在某頁面點選提交後的請求傳送過程）第一步

啟動YARN，並執行MapReduce程式，歷史伺服器，日誌聚集

目錄啟動YARN，並執行MapReduce程式配置歷史伺服器配置日誌聚集啟動YARN，並執行MapReduce程式 [[email protected] hadoop]$ pwd /opt/module/hadoop-2.7.2/etc/hadoop

兩種介面重新整理的方法Invalidate(),postInvalidate()

原部落格 https://www.cnblogs.com/rayray/p/3437048.html Android中實現view的更新有兩組方法，一組是invalidate，另一組是postInvalidate，其中前者是在UI執行緒自身中使用，而後者在非UI執行緒中使用。 Andro

資料的兩種歸一化方法

資料標準化（歸一化）處理是資料探勘的一項基礎工作，不同評價指標往往具有不同的量綱和量綱單位，這樣的情況會影響到資料分析的結果，為了消除指標之間的量綱影響，需要進行資料標準化處理，以解決資料指標之間的可比性。原始資料經過資料標準化處理後，各指標處於同一數量級，適合進行綜合對比評價。一般而言，

思特奇筆試題：Hadoop的三種執行模式：

1.獨立（本地）執行模式：無需任何守護程序，所有的程式都執行在同一個JVM上執行。在獨立模式下除錯MR程式非常高效方便。所以一般該模式主要是在學習或者開發階段除錯使用。 &nb

hadoop上的兩種執行mapreduce程式的方法

相關推薦