hadoop入門（六）JavaAPI+Mapreduce例項wordCount單詞計數詳解

阿新 • • 發佈：2019-01-16

剛剛研究了一下haoop官網單詞計數的例子，把詳細步驟解析貼在下面：

準備工作：

1、haoop叢集環境搭建完成

2、新建一個檔案hello,並寫入2行單詞，如下：

[[email protected] hadoop-2.6.0]# vi hello
hello you
hello me

3、把檔案傳到hdfs根目錄下：

[[email protected] hadoop-2.6.0]# bin/hdfs dfs -put hello /

檢視檔案是否匯入成功

[[email protected] hadoop-2.6.0]# bin/hdfs dfs -text /hello

hello you
hello me

4、開啟eclipse，如果你之前練過JavaAPI操作hdfs，那麼在原來專案中直接新增MapReduce的jar包就行了，Maven專案直接新增依賴就好。

jar包在之前搭建Windows的hadoop環境下的C:\Program Files (x86)\hadoop-2.6.3\share\hadoop\mapreduce下的所有jar和此資料夾下lib中的所有jar.

如果之前沒做過hdfs練習，那麼其他jar請參考我的前幾篇文章Hadoop入門（三）。

準備工作做好了，下面就開始編碼，程式碼中我註釋的很詳細：

◆執行步驟： 1. map

任務處理 1.1 讀取輸入檔案內容，解析成key、value對。對輸入檔案的每一行，解析成key、value對。每一個鍵值對呼叫一次map函式。 1.2 寫自己的邏輯，對輸入的key、value處理，轉換成新的key、value輸出。 1.3 對輸出的key、value進行分割槽。 1.4 對不同分割槽的資料，按照key進行排序、分組。相同key的value放到一個集合中。 1.5 (可選)分組後的資料進行歸約。 2.reduce任務處理 2.1 對多個map任務的輸出，按照不同的分割槽，通過網路copy到不同的reduce節點。 2.2 對多個map任務的輸出進行合併、排序。寫reduce函式自己的邏輯，對輸入的key、values處理，轉換成新的key、value輸出。 2.3 把reduce的輸出儲存到檔案中。

package test;
import java.io.IOException;
import java.net.URI;
import java.net.URISyntaxException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class WordCountApp {	
	
	/**我定義一個內部類MyMapper繼承Mapper類
	 * 泛型解釋：LongWritable是大資料裡的型別對應java中的Long型別
	 *         Text對應java裡的String型別，所以Mapper泛型前2個就是LongWritable, Text
	 * 邏輯解釋：由於我們做的是單詞計數，檔案中的單詞是下面2行
	 *         hello  you
	 *         hello  me
	 * 所以 ，根據上面
	 * 步驟1.1，則   <k1,v1>是<0, hello	you>,<10,hello	me> 形式   
	 * 檔案的讀取原則：<每行起始位元組數，行內容>，所以第一行起始位元組是0，內容是hello you
	 *             第二行起始位元組是10，內容是hello me，從而得出k1,v1
	 * 步驟1.2：如果我們要實現計數，我們可以把上面的形式通過下面的map函式轉換成這樣
	 * <k2,v2>--->  <hello,1><you,1><hello,1><me,1>
	 * 於是Mapper泛型後2個就是Text，LongWritable
	 *可以理解泛型前2個為輸入的map型別，後2個為輸出的map型別
	 */
	public static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{		
		//定義一個k2,v2
		Text k2 = new Text(); 
		LongWritable v2 = new LongWritable();
		@Override
		//下面的key就是從檔案中讀取的k1,value就是v1，map函式就是在執行步驟1.2
		protected void map(LongWritable key, Text value,
				Mapper<LongWritable, Text, Text, LongWritable>.Context context)
				throws IOException, InterruptedException {
			String[] words = value.toString().split("\t");
			for (String word : words) {
				//word表示每一行中的每個單詞，即k2
				k2.set(word);
				v2.set(1L);	//沒排序分組前每個單詞都是1個，由於是Long型別所以加L			
				context.write(k2, v2);//寫出
			}
		}
	}
	//步驟1.3:對輸出的所有的k2、v2進行分割槽去執行MapperTask
	//步驟1.4：shuffle-排序後的結果是<hello,1><hello,1><me,1><you,1>
	//        分組後的結果是<hello,{1,1}><me,{1}><you,{1}>
    //1.3和1.4,1.5是hadoop自動幫我們做的，我們做的就是上面寫的map函式的輸出邏輯
	
	/**
	 * 下面這個MyReducer函式是輸出<k3,v3>的函式，邏輯要我們自己寫。
	 * 傳入的引數是上面得到的<hello,{1,1}><me,{1}><you,{1}>
	 * 把這些map分給不同的ReducerTask去完成最後
	 * 輸出為<k3,v3>是<hello, 2>,<me, 1>,<you, 1>
	 */
	public static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
		LongWritable v3 = new LongWritable();
		@Override
		//傳入的資料形如<hello,{1,1}>，V的值是個集合，所以這裡Iterable<LongWritable>
		protected void reduce(Text k2, Iterable<LongWritable> v2s,
				Reducer<Text, LongWritable, Text, LongWritable>.Context context)
				throws IOException, InterruptedException {
			long count = 0L;
			for (LongWritable v2 : v2s) {
				count += v2.get();
			}
			v3.set(count);
			//k2就是k3,都是一個單詞
			context.write(k2, v3);
		}
	}
	public static void deleteOutDir(Configuration conf, String OUT_DIR)
			throws IOException, URISyntaxException {
		FileSystem fileSystem = FileSystem.get(new URI(OUT_DIR), conf);
		if(fileSystem.exists(new Path(OUT_DIR))){
			fileSystem.delete(new Path(OUT_DIR), true);
		}
	}
	/**
	 * 上面我們把map，reduce都寫完了，下面我們把它們合在一起，運轉起來
	 */
	public static void main(String[] args) throws Exception {
		//載入驅動
		Configuration conf = new Configuration();
		//獲取job,告訴他需要載入那個類
		Job job = Job.getInstance(conf, WordCountApp.class.getSimpleName());
		//如果檔案達成jar包在hadoop執行必須做這個設定
		job.setJarByClass(WordCountApp.class);
		//獲取檔案資料
		FileInputFormat.setInputPaths(job, new Path("hdfs://192.168.19.128:9000/hello"));
		//通過TextInputFormat把讀到的資料處理成<k1,v1>形式
		job.setInputFormatClass(TextInputFormat.class);
		//job中加入Mapper，同時MyMapper類接受<k1,v1>作為引數傳給類中map函式進行資料處理
		job.setMapperClass(MyMapper.class);
		//設定輸出的<k2,v2>的資料型別
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(LongWritable.class);
		//job中加入Reducer,Reducer自動接收處理好的map資料
		job.setReducerClass(MyReducer.class);
		//設定輸出的<k3,v3>的資料型別
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(LongWritable.class);
		//設定輸出目錄檔案out1
		String OUT_DIR = "hdfs://192.168.19.128:9000/out1";
		FileOutputFormat.setOutputPath(job, new Path(OUT_DIR));
		job.setOutputFormatClass(TextOutputFormat.class);
		//如果這個檔案存在則刪除，如果檔案存在不刪除會報錯。
		deleteOutDir(conf, OUT_DIR);
		//把處理好的<k3,v3>的資料寫入檔案
		job.waitForCompletion(true);
	}
}

編碼完事了，建議不要再eclipse環境下執行，經常會出現很多錯誤。我們打成jar在linux的hadoop環境下執行

1、打jar包

在WordCountApp檔案上右鍵——》Export——》JAR file ——》next ——》在下面選個存放路徑並命名——》next——》next——》Main class選擇main函式所在的類也就是WprdCountApp這個類——》finish

2、把生成的wordCount.jar匯入到虛擬機器，我直接匯入到hadoop的安裝目錄下了 /usr/local/hadoop/hadoop-2.6.0/

3、在hadoop環境下執行這個jar

[[email protected] hadoop-2.6.0]# bin/hadoop jar wordCount.jar

................

.................

17/08/13 10:39:41 INFO mapred.LocalJobRunner: Finishing task: attempt_local730042948_0001_r_000000_0
17/08/13 10:39:41 INFO mapred.LocalJobRunner: reduce task executor complete.
17/08/13 10:39:41 INFO mapreduce.Job: map 100% reduce 100%
17/08/13 10:39:41 INFO mapreduce.Job: Job job_local730042948_0001 completed successfully
17/08/13 10:39:42 INFO mapreduce.Job: Counters: 38

....................

..........................

看到上面的結果說明程式執行完畢map 100% reduce 100%

4、我們來看一下是否生成out1檔案，再看看檔案內容

[[email protected] hadoop-2.6.0]# bin/hdfs dfs -ls /

-rw-r--r-- 3 root supergroup 19 2017-08-13 08:37 /hello
drwxr-xr-x - root supergroup 0 2017-08-13 10:39 /out1

看看out1裡面有啥：

[[email protected] hadoop-2.6.0]# bin/hdfs dfs -ls /out1

-rw-r--r-- 3 root supergroup 0 2017-08-13 10:39 /out1/_SUCCESS
-rw-r--r-- 3 root supergroup 19 2017-08-13 10:39 /out1/part-r-00000

我們開啟part-r-0000看看裡面：

[[email protected] hadoop-2.6.0]# bin/hdfs dfs -text /out1/part-r-00000
hello 2
me 1
you 1

好了，單詞計數完成，hello2 個，me 1個，you 1 個。

hadoop入門（六）JavaAPI+Mapreduce例項wordCount單詞計數詳解

hadoop入門（六）JavaAPI+Mapreduce例項wordCount單詞計數詳解

Hibernate學習（六）———— cascade(級聯)和inverse關係詳解

【深度分析Zigbee】Zstack協議棧初窺（六）：協調器的組網過程詳解

微信小程式開發教程（六）配置——app.json、page.json詳解

Maven快速入門（四）Maven中的pom.xml檔案詳解

hadoop學習（六）WordCount示例深度學習MapReduce過程（1）

【轉】SVM入門（六）線性分類器的求解——問題的轉化，直觀角度

[轉]spring入門（六）【springMVC中各數據源配置】

轉：TensorFlow入門（六）雙端 LSTM 實現序列標註（分詞）

verilog入門（六）-----用戶定義原語UDP

Spring Boot快速入門（六）：thymeleaf

08-Linux基礎入門（六）-文件和目錄的屬性及權限之文件類型、文件擴展名及文件權限基礎

Java入門（六）：數組

python入門（六）裝飾器的理解

Netty入門（六）Decoder（解碼器）

（學習筆記版）Hadoop入門（一）：Hadoop2.7.3完全分布式集群安裝

區塊鏈快速入門（六）——區塊鏈密碼學與安全相關技術

06 React快速入門（六）——使用css樣式

Java的繼承與記憶體結構——有C++基礎的Java入門（六）

快速入門（完整）：Python例項100個（基於最新Python3.7版本）

hadoop入門（六）JavaAPI+Mapreduce例項wordCount單詞計數詳解

相關推薦