Hadoop--使用JavaAPI編寫wordcount的jar包

阿新 • • 發佈：2018-11-16

GitHub：https://github.com/GYT0313/Hadoop-JavaAPI-Code/tree/master/chapter4/wordcount

1.建立專案

建立三個類：
Mapper、Reducer、Main驅動類（需要匯入 jar包）
在這裡插入圖片描述

2.程式碼

WordMapper.java：

package wordcount;


import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;


/**
 * @author: Gu Yongtao
 * @Description: 
 * @date: 2018年11月6日 下午4:17:05
 * @Filename: WordMapper.java
 */

public class WordMapper extends Mapper<Object, Text, Text, IntWritable> {
	private final static IntWritable one = new IntWritable(1);
	private Text word = new Text();
	
	// Mapper類的核心方法
	/**
	 *  key 首字元偏移量
	 *  value 檔案的一行內容
	 *  context Mapper端的上下文
	 * @throws InterruptedException 
	 * @throws IOException 
	 */
	public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
		StringTokenizer itr = new StringTokenizer(value.toString()); // 分割輸入行為key，預設以空格/回車...分割
		while (itr.hasMoreTokens()) {
			word.set(itr.nextToken());
			context.write(word, one);
		}
	}	
}

分析：StringTokenizer itr = new StringTokenizer(value.toString());

在這裡插入圖片描述

WordReducer.java：

package wordcount;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

/**
 * @author: Gu Yongtao
 * @Description: 
 * @date: 2018年11月6日 下午4:40:16
 * @Filename: WordReducer.java
 */

public class WordReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
	private IntWritable result = new IntWritable();  // 記錄詞的頻數
	
	// Reducer抽象類的核心方法
	public void reduce (Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
		int sum = 0;
		// 遍歷values 將 list<value> 疊加
		for (IntWritable value : values) {
			sum += value.get();
		}
		result.set(sum);
		context.write(key, result);
	}
}

WordMain.java：（IP地址根據自身叢集配置）

package wordcount;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

/**
 * @author: Gu Yongtao
 * @Description: 
 * @date: 2018年11月6日 下午4:53:59
 * @Filename: WordMain.java
 */

public class WordMain {
	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		// Configuration類：讀取配置檔案內容-core-site.xml
		Configuration conf = new Configuration();
		
		// 讀取命令列引數，並設定到conf
		String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
		
		if (otherArgs.length != 2) { // 輸入目錄 輸出目錄
			System.err.println("Usage: wordcount <in><out>");
			System.exit(2);
		}
		
		Job job = new Job(conf, "word count"); // 新建一個job
		job.setJarByClass(WordMain.class); // 設定主類
		job.setMapperClass(WordMapper.class); // 設定Mapper類
		job.setCombinerClass(WordReducer.class); // 設定作業合成類
		job.setReducerClass(WordReducer.class); // 設定Reducer類
		job.setOutputKeyClass(Text.class); // 設定輸出資料的關鍵類
		job.setOutputValueClass(IntWritable.class); // 設定輸出值類
		FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
		FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
		System.exit(job.waitForCompletion(true) ? 0 : 1);		
	}
}

3.匯出jar包：

右鍵專案，點選Export：
在這裡插入圖片描述
選擇 JAR file：

點選Next，勾選wordcount工程中的 src，並選擇儲存的路徑名（包含最終的檔名），點選Finish：

匯出的jar包：

4.執行jar包

執行格式：

hadoop jar [jar 檔案位置] [jar 主類] [HDFS 輸入路徑] [HDFS 輸出路徑]

準備輸入檔案：使用hdfs shell命令寫入檔案內容（-appendToFile使用ctrl + c結束 | 也可以使用-put 上傳本地檔案）
在這裡插入圖片描述

執行任務：

hadoop jar /home/hadoop/jar/wordcount.jar wordcount.WordMain /data/wordcount.txt /output/wordcount3

在這裡插入圖片描述

檢視輸出：

在這裡插入圖片描述

總結：

使用JavaAPI編寫wordcount例項，可以根據自己需要設定分隔符，而不再單純的以空格/回車… 為分割。
只需要設定StringTokenizer的例項即可，如：
StringTokenizer itr = new StringTokenizer(value.toString());

Hadoop--使用JavaAPI編寫wordcount的jar包

GitHub：https://github.com/GYT0313/Hadoop-JavaAPI-Code/tree/master/chapter4/wordcount 1.建立專案建立三個類： Mapper、Reducer、Main驅動類（需要匯入 jar包） 2

Hadoop 運行jar包時 java.lang.ClassNotFoundException: Class com.zhen.mr.RunJob$HotMapper not found

yar error not caused not found mapred info group col 錯誤如下 Error: java.lang.RuntimeException: java.lang.ClassNotFoundException: Class com

關於Hadoop MapReduce 執行少包問題解決

這是一個Hadoop中極為常見的丟包少類的問題，希望能幫到大家問題描述命令：hadoop jar 執行包主函式引數-1 引數-2 執行產生異常異常一： Exit code: 1 Stack trace: ExitCodeException exitCo

ant 編譯 hadoop-eclipse-plugin.jar包

1.安裝 ant sudo apt-get install ant 測試： 2.下載 hadoop 已配置 hadoop-2.7.3 https://download.csdn.net/download/qq_38038143/10752615 未配置，

hadoop叢集執行jar包報錯（eclipse導jar）

報錯日誌： Exception in thread "main" java.lang.UnsupportedClassVersionError: com/hdfs/wordcount/WordcountDriver has been compiled by a more recent v

Hadoop javaAPI執行append時報錯 lease recovery is in progress 處理辦法

如叢集節點少於3個在執行時就會拋異常；解決方案修改【dfs.client.block.write.replace-datanode-on-failure.policy=NEVER】 Configuration conf = new Configuration(); conf.set("dfs

手動編寫jar包依賴關係，記對於Maven中jar包依賴錯誤問題的一次解決

專案中需要使用<c:**>標籤，因此需要引入jstl庫，而jstl庫又依賴於standard庫，所以可以從maven中加入jar包依賴。但是我加入後確是出現了波浪線，標籤依然不能引用。這樣的狀況碰見了n次，尤其是對於剛學習maven的小白來說，總是不能正確的從maven倉庫中下載ja

hadoop javaapi讀取資料夾下的資料

導包： import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.IOUtils; import java.io.FileOutputStream

hadoop下提交jar包執行時連線失敗異常或連線被拒絕

提交jar包執行時連線失敗異常或連線被拒絕錯誤提示為: Exception in thread "main" java.net.ConnectException: Call From mini02/192.168.91.4 to mini02:8032 fai

Hadoop eclipse匯入jar包 mac

1.右鍵需要匯入hadoop jar包的專案，Build Path --> Congigure Build Path 先找到Hadoop的資料夾（注意不是Hadoop-2.8.5-src 原始碼資料夾），下面匯入常用的4個包，包的位置如下。 hadoop/sha

Hadoop使用DATAJOIN軟體包連結不同來源的資料

具體參見《Hadoop in action》這裡說一下幾個問題：這幾個問題在stackoverflow 得到了解決（1）如何輸入多個檔案將多個檔案放入一個資料夾，輸入路徑寫資料夾的路徑 MultipleInputs.addInputPath(job

windows下idea編寫WordCount程式，並打jar包上傳到hadoop叢集執行（傻瓜版）

通常會在IDE中編制程式，然後打成jar包，然後提交到叢集，最常用的是建立一個Maven專案，利用Maven來管理jar包的依賴。一、生成WordCount的jar包 1. 開啟IDEA，File→New→Project→Maven→Next→填寫Groupld和Artifactld→Ne

為自己編寫的windows應用程序制作安裝包

sting 代碼 msd 如何 gid rmi extension 目錄參考資料 1 寫好了一個windows程序之後如何制作安裝包這個在vs中就可以直接發布了，可以制作msi的安裝包和exe的安裝包。 2 window應用程序安裝包做了哪些事情 rpm安裝包的話，只是

一臉懵逼學習hadoop之HDFS的java客戶端編寫

txt 維護刪除文件 trac 實例 for nod delete reat 1：eclipse創建一個項目，然後導入對應的jar包：鼠標右擊項目，點擊properties或者alt+enter快捷鍵--->java build path--->libra

Hadoop:讀取ｈｄｆｓ上ｚｉｐ壓縮包並解壓到ｈｄｆｓ的實現代碼

++ indexof zipfile substr substring merge str return 刪除背景：目前工作中遇到一大批的數據，如果不壓縮直接上傳到ｆｔｐ上就會遇到ｆｔｐ空間資源不足問題，沒辦法只能壓縮後上傳，上穿完成後在ｌｉｎｕｘ上下載。但是ｌｉｎｕ

hadoop-14-進行libtirpc的rpm包安裝

bsp lib yum 進行 eve cal ado devel rpm hadoop-14-進行libtirpc的rpm包安裝安裝過程中出現了這個問題，進行安裝； yum localinstall --nogpgcheck libtirpc-0.2.1-13.el6.x

c# 編寫windows 服務，並制作安裝包

階段其他編譯 code 工程 component partial 控制臺程序自定義　　對服務的認識有很多個階段。　　第一階段：當時還在用c++，知道在一個進程裏while(True){}，然後裏面做很多很多事情，這就叫做服務了，界面可能當時還用Console控

【轉】編寫高質量代碼改善C#程序的157個建議——建議38：小心閉包中的陷阱

class對象輸出局部變量 als lambda rate 完全 attribute 方法建議38：小心閉包中的陷阱先看一下下面的代碼，設想一下輸出的是什麽？ static void Main(string[] args) {

Hadoop自己編譯Hadoop安裝包

span per blog code 文件中 centos apps 是我 bootstrap CentOS-6.7 編譯 hadoop-2.6.5 （只需輸入紅色命令即可）目錄 1、閱讀編譯文檔 .....................................

1.4.3 編寫自己的模塊和包

python腳本 1.4 for 模塊導入 AD pri 模塊名模塊包含　　Python程序除了可以直接運行，還可以作為模塊導入並使用其中的對象。通過__name__屬性可以識別程序的使用方式。每個Python腳本在運行時都有一個__name__屬性，如果腳本作為模塊

Hadoop--使用JavaAPI編寫wordcount的jar包

GitHub：https://github.com/GYT0313/Hadoop-JavaAPI-Code/tree/master/chapter4/wordcount

1.建立專案

2.程式碼

分析：StringTokenizer itr = new StringTokenizer(value.toString());

3.匯出jar包：

4.執行jar包

執行任務：

檢視輸出：

總結：

相關推薦