MapReduce詳解!詳解!詳解!

阿新 • • 發佈：2018-12-16

理解 MapReduce 執行過程

以統計檔案中單詞出現的個數為例
一共三個檔案

1.以整個檔案的角度進行圖解 ( 每個方塊就是一個檔案)

2.根據程式碼進行圖解

放上程式碼,僅供參考

WCMapper.java

public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

	// 重寫 map  方法
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text,                 
            LongWritable>.Context context)throws IOException, InterruptedException {
		

        // value 代表檔案中的每一行資料
		String line = value.toString();
		
		// 根據空格拆分字串   {hello  lilei}
		String[] results = line.split(" ");
		// 遍歷陣列 ,獲取每一個結果
		for (String str : results) {
			context.write(new Text(str), new LongWritable(1));// {hello, 1}{lilei, 1}
			
		}
		
	}
}

WCReduce.java

public class WCReduce extends Reducer<Text, LongWritable, Text, LongWritable> {
	
	// 重寫reduce 方法
	@Override
	protected void reduce(Text key2, Iterable<LongWritable> v2,Reducer<Text, LongWritable, 
        Text, LongWritable>.Context context) throws IOException, InterruptedException {
	
		// 寫出自己的邏輯,統計單詞個數
		// 定義變數存放累加資料
		long count = 0;
		// v2 -> <hello, {1,1,1,1}
		for (LongWritable lw : v2) {
			// 累加操作
			count += lw.get();
		}
		// 輸出  k3,v3  -> string, long
		context.write(key2, new LongWritable(count));
	}
}

WCCount.java

public class WCCount {
	public static void main(String[] args) throws Exception {

		// 1.獲取job
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);
		// 2.指定job使用的類   指定程式的入口
		job.setJarByClass(WordCount.class);

		// 3.設定Mapper的屬性
		job.setMapperClass(WCMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(LongWritable.class);

		// 4.設定輸入檔案
		FileInputFormat.setInputPaths(job, new Path("/words"));

		// 5.設定reducer的屬性
		job.setReducerClass(WCReduce.class);
		job.setOutputKeyClass(Text.class);
		job.setMapOutputValueClass(LongWritable.class);

		// 6.設定輸出資料夾  檢視結果,儲存到 hdfs 資料夾中的位置
		FileOutputFormat.setOutputPath(job, new Path("/wcoutx1"));

		// 7.提交 true 提交的時候列印日誌資訊
		job.waitForCompletion(true);
	}
}

YARN and MapReduce的記憶體優化配置詳解

在Hadoop2.x中, YARN負責管理MapReduce中的資源(記憶體, CPU等)並且將其打包成Container。使之專注於其擅長的資料處理任務, 將無需考慮資源排程. 如下圖所示 YARN會管理叢集中所有機器的可用計算資源. 基於這些資源YARN會排程應用(

MapReduce On yarn執行過程詳解

老的MapReduce主要包括Job Tracker和Task Tracker，YARN中主要是三個元件：Resource Manager、Node Manager和Application Master。Resource Manager負責全域性資源分配，Applicatio

Thinking in BigData（八）大資料Hadoop核心架構HDFS+MapReduce+Hbase+Hive內部機理詳解

純乾貨：Hadoop核心架構HDFS+MapReduce+Hbase+Hive內部機理詳解。通過這一階段的調研總結，從內部機理的角度詳細分析，HDFS、MapReduce、Hbase、Hive是如何執行，以及基於Hadoop資料倉庫的構建和分散式資

大資料系列之Hadoop知識整理（七）MapReduce的核心之Shuffle詳解

1.MapReduce的核心之shuffle詳解上一篇中我們介紹了MapReduce是什麼，以及MapReduce的執行過程，其中在執行過程中主要分為Map端與Reducer端，MapReduce計算模型主要完成了對映與化簡，在這其中，有一個最重要的過程那就是其核心——s

hadoop入門（六）JavaAPI+Mapreduce例項wordCount單詞計數詳解

剛剛研究了一下haoop官網單詞計數的例子，把詳細步驟解析貼在下面：準備工作： 1、haoop叢集環境搭建完成 2、新建一個檔案hello,並寫入2行單詞，如下： [[email protected] hadoop-2.6.0]# vi hello hello

MapReduce中的combiner類詳解及自定義combiner類（轉）

一、Combiner的出現背景 1.1 回顧Map階段五大步驟　　在第四篇博文《初識MapReduce》中，我們認識了MapReduce的八大步湊，其中在Map階段總共五個步驟，如下圖所示：　　其中，step1.5是一個可選步驟，它就是我們今天需要了解的 M

Linux下的tar壓縮解壓縮命令詳解

命令 .tar.gz 需要 logo 意思追加 lin 產生 ron tar -c: 建立壓縮檔案-x：解壓-t：查看內容-r：向壓縮歸檔文件末尾追加文件-u：更新原壓縮包中的文件這五個是獨立的命令，壓縮解壓都要用到其中一個，可以和別的命令連用但只

linux中常用的壓縮、解壓命令詳解

壓縮不管在windows中還是在linux中，我們會經常看到各種壓縮的文件，此刻我們需要使用就得解壓，在這就介紹介紹linux中解壓、壓縮的命令。在做實驗之前，我們先創建幾個文件，大小都是100M，方便我們更能清晰理解。一、compress【選項】file（不是太常用，而且tab鍵還不能補齊）

top命令詳解之深入了解CPU

綁核 top cpu top tasksettop命令之你不一定懂的cpu顯示信息http://www.cnblogs.com/wjoyxt/p/4918742.html理解CPU steal timehttp://blog.csdn.net/jessysong/article/details/7

Linux下的壓縮解壓縮命令詳解及實例

tar命令壓縮解壓建立存在 sdi 創建指定處理解壓縮實例：壓縮當前目錄的內容為xxx.zip文件 zip -r xxx.zip ./* 解壓zip文件到當前目錄 unzip filename.zip ======================

Linux中zip壓縮和unzip解壓縮命令詳解

檢查驗證信息大小寫 -o 所有壓縮 tab 除了 1、把/home目錄下面的mydata目錄壓縮為mydata.zipzip -r mydata.zip mydata #壓縮mydata目錄2、把/home目錄下面的mydata.zip解壓到mydatabak目錄裏

linux壓縮(解壓縮)命令詳解

bz2 tar.bz2 通過取代例如哪些傳輸文件和目錄想要一.tar命令 tar可以為文件和目錄創建檔案。利用tar，用戶可以為某一特定文件創建檔案（備份文件），也可以在檔案中改變文件，或者向檔案中加入新的文件。tar 最初被用來在磁帶上創

CentOS中zip壓縮和unzip解壓縮命令詳解

window centos fedora 搜搜命令詳解剛才錯誤完整壓縮文件以下命令均在/home目錄下操作cd /home #進入/home目錄1、把/home目錄下面的mydata目錄壓縮為mydata.zipzip -r mydata.zip mydata

tar壓縮解壓縮命令詳解

ash 並且 str tar命令追加 spa gun 壓縮歸檔 yar tar命令詳解 -c: 建立壓縮檔案 -x：解壓 -t：查看內容 -r：向壓縮歸檔文件末尾追加文件 -u：更新原壓縮包中的文件這五個是獨立的命令，壓縮解壓都要用到其中一個，可以和別的

搜索引擎系列五：Lucene索引詳解（IndexWriter詳解、Document詳解、索引更新）

let integer 自己 textfield app tdi AS query rect 一、IndexWriter詳解問題1：索引創建過程完成什麽事？　　　　分詞、存儲到反向索引中 1. 回顧Lucene架構圖：介紹我們編寫的應用程序要完成數據的收集，再將數據

少年群俠傳頁遊助手哪裏下載武宗解鎖任務詳解

少年群俠傳少年群俠傳內成為武宗是每個玩家都夢寐以求的，這是實力的象征，但是想要升到武宗，我們就得先解鎖武宗的任務才可以，下面就讓少年群俠傳頁遊助手小編來教教大家吧! 武宗是遊戲內最高的一個及各界，每個境界都有不一樣的屬性加成，有免除異常狀態、無視防禦的傷害、還有減速的效果，不管是在刷圖還是PK都能夠派上用場。

壓縮/打包/解包命令詳解

打包壓縮指定 txt 過濾解壓縮 thead tar tar打包工具 tro 壓縮&解壓 gzip gzip 壓縮級別1-9 1 壓縮級別最低 9壓縮級別最高【默認級別6】壓縮文件類型.gz 壓縮：gzip 壓縮文件名【修改壓縮級別方法：gzip -1

Linux下的tar壓縮解壓縮命令詳解（轉）

壓縮歸檔增加 all log 參數 -c 內容 net logo tar -c: 建立壓縮檔案-x：解壓-t：查看內容-r：向壓縮歸檔文件末尾追加文件-u：更新原壓縮包中的文件這五個是獨立的命令，壓縮解壓都要用到其中一個，可以和別的命令連用但只能用其中一個。下面的參數是

Linux tar解壓縮命令詳解

tar命令Windows和Linux操作都一樣，但是zip不一定都支援，壓縮命令用得最多的還是tar。目錄 tar命令幫助 tar測試壓縮解壓檢視內部檔案 tar命令幫助 [root @ localhost /] #tar --help 用法：tar

[轉] #define用法詳解 #define用法詳解

#define用法詳解 1.#define 的作用　　在Ｃ或C++語言源程式中允許用一個識別符號來表示一個字串，稱為“巨集”。被定義為“巨集”的識別符號稱為“巨集名”。在編譯預處理時，對程式中所有出現的“巨集名”，都用巨集定義中的字串去代換，這稱為“巨集

MapReduce詳解!詳解!詳解!

理解 MapReduce 執行過程

相關推薦