尚矽谷-MR執行流程淺析

阿新 • • 發佈：2020-07-22

二、MR的核心程式設計思想

1.概念

Job(作業) :  一個MR程式稱為一個Job
MRAppMaster（MR任務的主節點）: 一個Job在執行時，會先啟動一個程序，這個程序為 MRAppMaster。
	負責Job中執行狀態的監控，容錯，和RM申請資源，提交Task等！
				
Task(任務)：  Task是一個程序！負責某項計算！

Map(Map階段): Map是MapReduce程式執行的第一個階段！
		Map階段的目的是將輸入的資料，進行切分。將一個大資料，切分為若干小部分！
		切分後，每個部分稱為1片(split)，每片資料會交給一個Task（程序）進行計算！
					
		Task負責是Map階段程式的計算，稱為MapTask!
					
		在一個MR程式的Map階段，會啟動N（取決於切片數）個MapTask。每個MapTask是並行執行！
					
Reduce(Reduce階段)： Reduce是MapReduce程式執行的第二個階段(最後一個階段)！
		Reduce階段的目的是將Map階段，每個MapTask計算後的結果進行合併彙總！得到最終結果！
		Reduce階段是可選的！
							
		Task負責是Reduce階段程式的計算，稱為ReduceTask!
		一個Job可以通過設定，啟動N個ReduceTask，這些ReduceTask也是並行執行！
		每個ReduceTask最終都會產生一個結果！

2.MapReduce中常用的元件

①Mapper: map階段核心的處理邏輯

②Reducer: reduce階段核心的處理邏輯

③InputFormat: 輸入格式

MR程式必須指定一個輸入目錄，一個輸出目錄！
InputFormat代表輸入目錄中檔案的格式！
如果是普通檔案，可以使用FileInputFormat.
如果是SequeceFile（hadoop提供的一種檔案格式），可以使用SequnceFileInputFormat.
如果處理的資料在資料庫中，需要使用DBInputFormat

④RecordReader: 記錄讀取器

RecordReader負責從輸入格式中，讀取資料，讀取後封裝為一組記錄(k-v)!

⑤OutPutFormat: 輸出格式

OutPutFormat代表MR處理後的結果，要以什麼樣的檔案格式寫出！
將結果寫出到一個普通檔案中，可以使用FileOutputFormat！
將結果寫出到資料庫中，可以使用DBOutPutFormat！
將結果寫出到SequeceFile中，可以使用SequnceFileOutputFormat

⑥RecordWriter: 記錄寫出器

RecordWriter將處理的結果以什麼樣的格式，寫出到輸出檔案中！

在MR中資料的流程：

①InputFormat呼叫RecordReader，從輸入目錄的檔案中，讀取一組資料，封裝為keyin-valuein物件
②將封裝好的key-value，交給Mapper.map()------>將處理的結果寫出 keyout-valueout
③ReduceTask啟動Reducer，使用Reducer.reduce()處理Mapper寫出的keyout-valueout，
④OutPutFormat呼叫RecordWriter，將Reducer處理後的keyout-valueout寫出到檔案

⑦Partitioner: 分割槽器

分割槽器，負責在Mapper將資料寫出時，將keyout-valueout，為每組keyout-valueout打上標記，進行分割槽！
目的： 一個ReduceTask只會處理一個分割槽的資料！

三、MapReduce的執行流程概述

需求：統計/hello目錄中每個檔案的單詞數量

a-p開頭的單詞放入到一個結果檔案中，
q-z開頭的單詞放入到一個結果檔案中。

例如：

/hello/a.txt   200M
hello,hi,hadoop
hive,hadoop,hive,
zoo,spark,wow
zoo,spark,wow
...
/hello/b.txt    100m
hello,hi,hadoop
zoo,spark,wow
...

1.Map階段(執行MapTask，將一個大的任務切分為若干小任務，處理輸出階段性的結果)
①切片(切分資料)

/hello/a.txt   200M
/hello/b.txt    100m

預設的切分策略是以檔案為單位，以檔案的塊大小(128M)為片大小進行切片！

split0:/hello/a.txt,0-128M
split1: /hello/a.txt,128M-200M
split2: /hello/b.txt,0M-100M

②執行MapTask（程序），每個MapTask負責一片資料

split0:/hello/a.txt,0-128M--------MapTask1
split1: /hello/a.txt,128M-200M--------MapTask2
split2: /hello/b.txt,0M-100M--------MapTask3

③讀取資料階段

在MR中，所有的資料必須封裝為key-value
MapTask1,2,3都會初始化一個InputFormat（預設TextInputFormat），每個InputFormat物件負責建立一個RecordReader(LineRecordReader)物件，
RecordReader負責從每個切片的資料中讀取資料，封裝為key-value.

LineRecordReader: 將檔案中的每一行封裝為一個key（offset）-value(當前行的內容)

舉例：

hello,hi,hadoop----->(0,hello,hi,hadoop)
hive,hadoop,hive----->(20,hive,hadoop,hive)
zoo,spark,wow----->(30,zoo,spark,wow)
zoo,spark,wow----->(40,zoo,spark,wow)

④進入Mapper的map()階段

map()是Map階段的核心處理邏輯！ 單詞統計! map()會迴圈呼叫，對輸入的每個Key-value都進行處理！
輸入：(0,hello,hi,hadoop)
輸出：(hello,1),(hi,1),(hadoop,1)  

輸入：(20,hive,hadoop,hive)
輸出：(hive,1),(hadoop,1),(hive,1)  

輸入：(30,zoo,spark,wow)
輸出：(zoo,1),(spark,1),(wow,1)  

輸入：(40,zoo,spark,wow)
輸出：(zoo,1),(spark,1),(wow,1)

⑤目前，我們需要啟動兩個ReduceTask,生成兩個結果檔案，需要將MapTask輸出的記錄進行分割槽(分組，分類)
在Mapper輸出後，呼叫Partitioner，對Mapper輸出的key-value進行分割槽，分割槽後也會排序（預設字典順序排序）
分割槽規則：

a-p開頭的單詞放入到一個區
q-z開頭的單詞放入到另一個區

MapTask1:

0號區：  (hadoop,1)，(hadoop,1)，(hello,1),(hi,1),(hive,1),(hive,1)
1號區：  (spark,1),(spark,1),(wow,1) ，(wow,1),(zoo,1)(zoo,1)

MapTask2:

0號區：  。。。
1號區： ...

MapTask3:

0號區：   (hadoop,1),(hello,1),(hi,1),
1號區： (spark,1),(wow,1),(zoo,1)

2.Reduce階段

①copy

ReduceTask啟動後，會啟動shuffle執行緒，從MapTask中拷貝相應分割槽的資料！

ReduceTask1: 只負責0號區

將三個MapTask，生成的0號區資料全部拷貝到ReduceTask所在的機器！
(hadoop,1)，(hadoop,1)，(hello,1),(hi,1),(hive,1),(hive,1)
 (hadoop,1),(hello,1),(hi,1),

ReduceTask2: 只負責1號區

將三個MapTask，生成的1號區資料全部拷貝到ReduceTask所在的機器！
(spark,1),(spark,1),(wow,1) ，(wow,1),(zoo,1)(zoo,1)
(spark,1),(wow,1),(zoo,1)

②sort

ReduceTask1:	只負責0號區進行排序：
	(hadoop,1)，(hadoop,1)，(hadoop,1),(hello,1),(hello,1),(hi,1),(hi,1),(hive,1),(hive,1)
ReduceTask2: 只負責1號區進行排序：
	(spark,1),(spark,1),(spark,1),(wow,1) ，(wow,1),(wow,1),(zoo,1),(zoo,1)(zoo,1)

③reduce

ReduceTask1---->Reducer----->reduce(一次讀入一組資料)

何為一組資料： key相同的為一組資料
	輸入： (hadoop,1)，(hadoop,1)，(hadoop,1)
	輸出：   (hadoop,3)

	輸入： (hello,1),(hello,1)
	輸出：   (hello,2)
	
	輸入： (hi,1),(hi,1)
	輸出：  (hi,2)
	
	輸入：(hive,1),(hive,1)
	輸出： （hive,2）
	
ReduceTask2---->Reducer----->reduce(一次讀入一組資料)


	輸入： (spark,1),(spark,1),(spark,1)
	輸出：   (spark,3)
	
	輸入： (wow,1) ，(wow,1),(wow,1)
	輸出：   (wow,3)

	輸入：(zoo,1),(zoo,1)(zoo,1)
	輸出：   (zoo,3)

④呼叫OutPutFormat中的RecordWriter將Reducer輸出的記錄寫出

ReduceTask1---->OutPutFormat（預設TextOutPutFormat）------>RecordWriter（LineRecoreWriter）
LineRecoreWriter將一個key-value以一行寫出，key和alue之間使用\t分割
在輸出目錄中，生成檔案part-r-0000
hadoop	3
hello	2
hi	2
hive	2
	
ReduceTask2---->OutPutFormat（預設TextOutPutFormat）------>RecordWrite（LineRecoreWriter）
LineRecoreWriter將一個key-value以一行寫出，key和alue之間使用\t分割
在輸出目錄中，生成檔案part-r-0001
spark	3
wow	3
zoo	3

三、MR總結

Map階段(MapTask)：  切片(Split)-----讀取資料(Read)-------交給Mapper處理(Map)------分割槽和排序(sort)
Reduce階段(ReduceTask):  拷貝資料(copy)------排序(sort)-----合併(reduce)-----寫出(write)

尚矽谷-MR執行流程淺析

二、MR的核心程式設計思想 1.概念 Job(作業) :一個MR程式稱為一個Job MRAppMaster（MR任務的主節點）: 一個Job在執行時，會先啟動一個程序，這個程序為 MRAppMaster。

Mybatis執行流程淺析

從三個主要的物件SqlSessionFactoryBuilder->SqlSessionFactory->SqlSession說起 inputStream = Resources.getResourceAsStream(resource);

20200730 尚矽谷 JVM 03 - 執行時資料區概述及執行緒

03 - 執行時資料區概述及執行緒 1 - 概述記憶體是非常重要的系統資源，是硬碟和 CPU 的中間倉庫及橋樑，承載著作業系統和應用程式的實時執行。 JVM 記憶體佈局規定了 Java 在執行過程中記憶體申請、分配、管理的策

20200730 尚矽谷 JVM 12 - 執行引擎

12 - 執行引擎 1 - 執行引擎概述執行引擎概述執行引擎是 Java 虛擬機器核心的組成部分之一。

淺析Nuxt.js主要作用、應用架構（5步）及其模式選擇介紹-SPA路由請求執行流程、Universal模式（SSR渲染執行流程路由請求流程、SSG渲染、SSR與SSG對比）

一、Nuxt 作用 1、Nuxt 其一目的是為了解決單頁面應用的SEO問題，相比於我們平常的 SPA 頁面。在搜尋引擎中由於無法從網頁中被抓取內容資訊(SPA頁面的資訊都是被打包到JS檔案中,動態載入到頁面中)，從而無法被使用者

淺析webpack基礎核心概念、Loader作用及執行流程理解及常用Loader介紹、Plugin作用及執行流程理解及常用Plugin介紹、Loader與Plugin區別

　　Webpack 是一個用於現代JS應用程式的靜態模組打包工具。當 webpack 處理應用程式時，它會在內部從一個或多個入口點構建一個依賴圖(dependency graph)，然後將你專案中所需的每一個模組組合成一個或多個 bundles

插曲：Kafka的執行流程總結和原始碼前準備

前言雖然這是一個原始碼的預熱篇同樣這也是插曲篇的一個總結，我們從一開始的叢集的各個角色，到叢集的設計，到網路模型，到生產者，消費者都已經提了個遍。這一篇會把最後的一個核心提一下，然後對以往的概念三篇做

Giraph 執行流程（一）

前言本文主要分析了 Giraph1.3 SNAPSHOT 的 Job 提交和初始化的過程。其中 Job 提交部分的分析根據執行在 Standalone 模式下的 Hadoop 部分進行，分析僅涉及本地執行時執行的程式碼，而初始化部分則主要根據叢集模

PHP-Yaf執行流程-原始碼分析

PHP-Yaf執行流程-原始碼分析介紹 Yaf框架是一個c語言編寫的PHP框架，是一個以PHP擴充套件形式提供的PHP開發框架，相比於一般的PHP框架，它更快，更輕便，記憶體佔用率更低，就是本著對效能的追求，Yaf把框架中不易

Hystrix命令執行流程

前言 Hystrix已經不在維護了,但是成功的開源專案總是值得學習的.剛開始看 Hystrix 原始碼時,會發現一堆 Action,Function 的邏輯,這其實就是 RxJava 的特點了--響應式程式設計.上篇文章已經對RxJava作過入門介紹,不熟

SpringMVC的執行流程及元件詳解

這篇文章主要介紹了SpringMVC的執行流程及元件詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

SQL語句執行深入講解（MySQL架構總覽->查詢執行流程->SQL解析順序）

前言：一直是想知道一條SQL語句是怎麼被執行的，它執行的順序是怎樣的，然後檢視總結各方資料，就有了下面這一篇博文了。

laravel 框架執行流程與原理簡單分析

本文例項講述了laravel 框架執行流程與原理。分享給大家供大家參考，具體如下：

Java servlet執行流程程式碼例項

這篇文章主要介紹了Java servlet執行流程程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬蟲程式架構和執行流程原理解析

1 前言 Python開發網路爬蟲獲取網頁資料的基本流程為：發起請求通過URL向伺服器發起request請求，請求可以包含額外的header資訊。

Javascript執行流程細節原理解析

Javascript從定義到執行，JS引擎在實現層做了很多初始化工作，因此在學習JS引擎工作機制之前，我們需要引入幾個相關的概念：執行環境棧、全域性物件、執行環境、變數物件、活動物件、作用域和作用域鏈等，這些概念正

SpringMVC底層執行流程及原理解析

一個簡單的HelloSpringMVC程式先在web,xml中註冊一個前端控制器（DispatcherServlet）

SpringMVC攔截器配置及執行流程解析

1.與過濾器filter的區別 2.springMVC中攔截器的必須實現的三個方法： 3. 攔截器類的編寫：

Python celery原理及執行流程解析

celery簡介 celery是一個基於分散式訊息傳輸的非同步任務佇列，它專注於實時處理，同時也支援任務排程。它的執行單元為任務（task），利用多執行緒，如Eventlet，gevent等，它們能被併發地執行在單個或多個職程伺服器

SpringMVC入門系列：篇1——SpringMVC基本使用與執行流程

前言 Spring MVC屬於SpringFrameWork的後續產品 Spring 框架提供了構建 Web 應用程式的全功能 MVC 模組

尚矽谷-MR執行流程淺析

相關推薦