MapReduce分散式計算

阿新 • • 發佈：2018-12-22

MapReduce-分散式計算筆記

簡介
原理
YARN

1.前身
2.YARN

環境搭建

簡介

1.什麼是MapReduce

Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-terabyte data-sets) in-parallel on large clusters (thousands of nodes) of commodity hardware in a reliable, fault-tolerant manner.

2.MapReduce組成

Map端
Reduce端

3.MapReduce核心思想

“相同”的key為一組，呼叫一次Reduce方法，方法內迭代這一組資料進行計算

原理

在這裡插入圖片描述

1.map task
1.1.map task端從HDFS叢集上拿資料

	一個map task由一個split切片，因為HDFS叢集上是block塊（按位元組切割）儲存資料，可能回導致亂碼，預設情況下，1個split切片 ≈ 1個block塊
	目的：防止資料被分開

1.2.map task將資料拉入記憶體

	1.將處理後的每條記錄打上標籤，目的是明確這一條記錄將來被哪一個reduce task處理
		打標籤由分割槽完成，預設的分割槽器是HashPartitioner。
		分割槽策略是根據key的HashCode與reduce task NUM 取模
		進入記憶體中的每一條記錄都由分割槽號、key、value組成
	2.記憶體中的資料超過預設的80M後，這80M記憶體回被封鎖，然後對這80M的資料進行combiner（小聚合）

1.3.將記憶體中的資料寫入磁碟小檔案中

1.將相同分割槽的資料放在一起，分割槽內的資料按照key值進行一定的排序

1.4.磁碟小檔案合併成一個大檔案

1.在map task計算完畢後進行合併
2.合併時使用歸併排序演算法
3.產生一個有分割槽且分割槽內部有序的大檔案

1.2-1.4又稱為shuffle write階段
有序大檔案：提高分組的分組效率
2.reduce task

1.去map端讀取相應的分割槽資料，
2.將分割槽資料寫入記憶體中，記憶體滿時回溢寫，溢寫之前會排序，寫入磁碟小檔案中
3.當資料讀取、排序完畢後，將磁碟小檔案合併、排序成一個大檔案

歸根結底，四次排序都是為了提高分組的分組效率
2.1-2.2，又被稱為shuffle read階段

3.總結
3.1Map

	1.讀懂資料
	2.對映為hey-value模型
	3.並行分散式
	4.計算向資料移動

3.2Reduce

	1.Reduce中可以包含不同的key
	2.相同的key匯聚到一個Reduce中，相同的key呼叫一次reduce方法

YARN

1.前身

在hadoop1.x版本中，MapReduce框架中自帶了一個資源排程器。
1.MapReduce執行流程
在這裡插入圖片描述

1.客戶端將MapReduce任務提交給JobTracker
	hadoop jar
2.JobTracker向NameNode請求計算檔案的block位置
3.通知各個TaskTracker在各自節點上啟動一個container（容器）
4.JobTracker向TaskTracker上按照資料位置分發任務MapTask（資料本地化）
5.MapTask計算完畢後，每一個MapTask都會產生一個大檔案
6.JobTracker告訴某一臺TaskTracker節點啟動一個container，在container中啟動一個ReduceTask程序
7.ReduceTask將MapTask產生的檔案拉取過來，計算完畢後，傳到HDFS叢集上

資料本地化是指資料不移動，計算移動（即計算向資料移動）
目的是為了減少網路IO
ReduceTask最好是與MapTask在同一節點上，減少網路IO

2.總結
2.1JobTracker

1.核心，單點，主節點
2.排程所有的作業
3.監控整個叢集的資源負載

2.2TaskTracker

1.從節點，自身節點資源管理
2.向JobTracker彙報資源，獲取Task

2.3弊端

1.JobTracker負載過高，容易出現單點故障
2.資源管理與計算排程強耦合，其他計算框架需要重複實現資源管理
3.不同框架對資源不能全域性管理，存在資源強度和資源隔離問題

2.YARN

1.核心思想

將JobTracker的資源管理和任務排程兩個功能分開，分別由ResourceManager和ApplicationMaster程序實現。

2.角色
2.1ResourceManager

1.主節點、資源排程器的核心
2.叢集節點資源管理

2.2NodeManager

1.向ResourceManager彙報資源
2.管理Container生命週期

2.3Container

1.預設NodeManager啟動執行緒監控COntainer大小，超出申請資源額度就kill
2.支援Linux核心的Cgroup

2.4ApplicationMaster

負責應用程式相關的事務，比如任務排程、任務監控和容錯等

3.流程
在這裡插入圖片描述

1.client拿到MR Application計算檔案的路徑，從NameNode獲取每一個block的位置，形成一個報表
2.client向ResourceManager請求，申請ApplicationMaster資源
3.ResourceManager接受client請求，然後檢視哪一個節點資源充足，如果大部分節點資源充足，那就隨機找一臺節點（例如node01）啟動Container容器
4. node01上的NodeManager會在Container容器中啟動一個ApplicationMaster（負責任務排程）
5.client將報表交給ApplicationMaster
6.ApplicationMaster根據報表向ResourceManager申請資源
7.ResourceManager根據申請檢視節點資源是否充足，在資源充足的節點上啟動Container容器
8.對應的NodeManager在Container中啟動yarn-child程序
9.ApplicationMaster向各個yarn-child中分發MapTask執行緒
10.MapTask計算完畢後，會生成對應的磁碟檔案
11.ApplicationMaster分發ReduceTask執行緒
	最好是在MapTask執行緒所在的節點上，減少網路IO
12.ReduceTask執行緒執行完畢後，將結果寫入HDFS叢集上

4.優勢

1.避免了單點故障
2.使得多個計算框架可以執行在一個叢集中

環境搭建

1.叢集規劃
在之前搭建的高可用叢集上搭建YARN叢集

	NameNode1	NameNode2	DataNode	Zookeeper	ZKFC	JournalNode	ResourceManager	NodeManager
node01	√				√	√	√
node02		√	√	√	√	√	√	√
node03			√	√		√		√
node04			√	√				√

2.修改配置檔案
2.1mapred-site.xml

 <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
 </property>

2.2yarn-site.xml

 <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
   <name>yarn.resourcemanager.ha.enabled</name>
   <value>true</value>
 </property>
 <property>
   <name>yarn.resourcemanager.cluster-id</name>
   <value>cluster1</value>
 </property>
 <property>
   <name>yarn.resourcemanager.ha.rm-ids</name>
   <value>rm1,rm2</value>
 </property>
 <property>
   <name>yarn.resourcemanager.hostname.rm1</name>
   <value>node01</value>
 </property>
 <property>
   <name>yarn.resourcemanager.hostname.rm2</name>
   <value>node02</value>
 </property>
 <property>
   <name>yarn.resourcemanager.zk-address</name>
   <value>node02:2181,node03:2181,node04:2181</value>
 </property>

3.啟動yarn叢集
3.1在node01上執行

 start-yarn.sh

3.2在node02上執行

yarn-daemon.sh start resourcemanager

4.測試
4.1進入hadoop_home下的share/hadoop/mapreduce目錄
4.2執行用例

hadoop jar hadoop-mapreduce-examples-2.6.5.jar wordcount  /input  /output

/input是HDFS叢集下的目錄，目錄下需要放一個或多個存有英文單詞或語句的檔案

MapReduce分散式計算和程式設計原理總結

inputformat 在MapReduce程式的開發過程中，往往需要用到FileInputFormat與TextInputFormat，TextInputFormat這個類繼FileInputFormat，FileInputFormat這個類繼承自InputForm

MapReduce分散式計算

MapReduce-分散式計算筆記簡介原理 YARN 1.前身 2.YARN 環境搭建簡介 1.什麼是MapReduce Hadoop MapReduce is a softwar

圓周率π的近似計算(三)-MapReduce分散式計算入門

MapReduce 分散式計算入門一個胖子在學 hadoop 的我們最先接觸的分散式框架就是MapReduce框架,本意就是通過使用MapReduce 框架進行實現圓周率 π 的分散式計算的小demo; MapReduce 的處理流程 Mapp

大資料之hadoop分散式計算框架MapReduce

一、MapReduce構成 MapReduce分為兩部分，即map和reduce。其中map是入隊（key，value），reduce則是聚合（計算）。 map過程的輸出時reduce過程的輸入。需要注意的是這裡map中的key是可以重複的，reduce做聚

大資料時代之hadoop(五)：hadoop 分散式計算框架（MapReduce）

hadoop的核心分為兩塊，一是分散式儲存系統-hdfs，這個我已經在上一章節大致講了一下，另一個就是hadoop的計算框架-mapreduce。 mapreduce其實就是一個移動式的基於key-value形式的分散式計算框架。

Caffe支援多GPU分散式計算

Caffe允許多GPU間平行計算，多GPU模式工作模式為“不共享資料，卻共享網路”。當目標機器GPU數量大於1時，Caffe將允許多個solver存在，且應用到不同的GPU上去。 vector<int> gpus; get_gpus(&gpus

分散式計算課程筆記-叢集（cluster）

概念節點 (node):指一臺完整的主機，可以認為是伺服器的別名。例如:管理節點，計算節點，GPU 節點。叢集 (cluster)：一組節點 (node) 經過區域網互聯形成的計算機群。節點之間相互通訊有比較低的延遲。作業排程系統–SLURM 本質目標:在使用者程式互不

分散式補償事務處理方案 / 分散式計算是如何控制事務的？

事務原子性,一致性,永續性,隔離性是基本的屬性，這裡不解釋，本篇文章只對分佈性事務方案做說明方案問題來源隨著分散式微服務應用盛行，帶來的優勢是顯而易見的，但是在面臨事務的時候，卻變的異常麻煩，因為是在不同的應用內，所以無法在單個應用內做回滾處理，這個時候，就需要有一個單獨的

大資料之Spark（四）--- Dependency依賴，啟動模式，shuffle，RDD持久化，變數傳遞，共享變數，分散式計算PI的值

一、Dependency:依賴:RDD分割槽之間的依存關係 --------------------------------------------------------- 1.NarrowDependency: 子RDD的每個分割槽依賴於父RDD的少量分割槽。 |

學習大資料課程 spark 基於記憶體的分散式計算框架（二）RDD 程式設計基礎使用

學習大資料課程 spark 基於記憶體的分散式計算框架（二）RDD 程式設計基礎使用 1.常用的轉換假設rdd的元素是： {1,2,2,3} 很多初學者，對大資料的概念都是模糊不清的，大資料是什麼，能做什麼，學的時候，該按照什麼線路去學習，學完

分散式計算，網格計算，雲端計算

1、分散式計算研究如何把一個需要非常巨大的計算能力才能解決的問題分成許多小的部分，然後把這些部分分配給許多計算機進行處理，最後把這些計算結果綜合起來得到最終結果。 2、網格計算其實也就是一種特殊的分散式計算，網格計算的本質在於以有效且優化的方式來利用組織中各種異構耦合資源。有必要說一下網格計算的基本形態，它

分散式計算hadoop三大元件

設計原則：移動計算，而不是移動資料計算層：Map/Reduce排程層：YARN資料層：HDFS 這三層之間沒有必然的依賴性，只是經常這麼搭配，而且都是hadoop那個包裡一起安裝的，三層都可以獨立執行，某一層或者某兩層換成其他的而另外兩層或者一層不換也是可以的 YARN 排程系統　　Resource

【Hadoop】MapReduce平行計算框架

MapReduce平行計算框架基本知識前言核心概念計算模型系統架構作業配置計算流程與機制作業提交和初始化 Mapper Reducer

億級流量系統架構之如何設計高容錯分散式計算系統【石杉的架構筆記】

歡迎關注個人公眾號：石杉的架構筆記（ID:shishan100）週一至週五早8點半！精品技術文章準時送上！億級流量架構專欄：億級流量系統架構之如何支撐百億級資料的儲存與計算億級流量系統架構之如何設計高容錯分散式計算系統億級流量系統架構之如何設計承載百億流量的高效能架構【敬請期待】億級流

MapReduce中計算Wordcount中map端及reduce端的設定

map端的設定： package wordcount; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.io.IntWritable; import or

科普：平行計算、分散式計算、叢集計算和雲端計算

1. 平行計算（Parallel Computing）　　　　平行計算或稱平行計算是相對於序列計算來說的。平行計算（Parallel Computing）是指同時使用多種計算資源解決計算問題的過程。為執行平行計算，計算資源應包括一臺配有多處理機（並行處理）的計算機、一個與網路相連的計算機專有編

MapReduce平行計算框架

1.思想：分而治之 map：對每一部分資料進行處理 reduce：合併 2.資料流動的形式是<key,value> 1. Map階段由一定數量的Map Task組成 *輸入資料格式解析：InputFormat *輸入資料處理：Mapper *資料分

簡單搭建分散式計算

#主機控制程式碼 import multiprocessing import multiprocessing.managers import random,time from multiprocessing import Queue 任務佇列 task_queue=Queue()

工業網際網路平臺核心技術之三：平行計算與分散式計算

之所以將兩種計算技術放在一起，是因為這兩種計算具有共同的特點，都是運用並行來獲得更高效能運算，把大任務分為N個小任務。但兩者還是有區別的，關於兩者的區別在後面說。一、平行計算 1、平行計算概念平行計算又稱平行計算是指一種能夠讓多條指令同時進行的計算模式，可分為時

分散式計算和平行計算差異

Mapreduce是分散式計算的典型技術，MPI則是平行計算的典型技術。總結下來主要兩點區別： 1、分散式計算（如MapReduce）的計算節點任務往往是獨立的，鬆散的。不涉及大規模的資料互動，因此節點之間執行幾乎互不影響。體現到技術架構上就使得可以做到計算和儲存在同一個節點上，不存在計算節

MapReduce分散式計算