大資料Hadoop學習筆記（四）

阿新 • • 發佈：2018-11-09

MapReduce執行過程

========

step1 ：
- input
  - InputFormat
    - 讀取資料
    - 轉換成<key, value>
  - FileInputFormat
    - TextInputFormat
step 2:
- map
  - ModuleMapper
  - map(KEYIN , VALUEIN, KEYOUT, VALUEOUT)
    - 預設情況下——>KEYIN ：LongWritable VALUEIN : TEXT
step 3:
- shuffle
- proceess
  - map,output<key, value>
  - 輸出output一開始放在memory記憶體緩衝區
  - 記憶體滿了之後通過spill,溢寫到磁碟中，很多檔案。寫的過程中有兩種操作：
    - 分割槽parttition，基於hash分割槽
    - 排序sort
  - 輸出之後，磁碟存在很多小檔案
    - 將小檔案合併merge
    - 排序
    - 形成一個大檔案——》在map task執行的機器的本地磁碟
      -------------------------------- map結束 ---------------------------------------------
  - reduce任務啟動，會到map task執行的機器的本地磁碟上，拷貝要處理的資料
  - 合併。排序
  - 分組group：將相同的key的value放在一起
    -MAP-01
    <hadoop,1>
    ——————<hadoop,2>------->combiner在map端合併key
    <hadoop,1>
    <yarn,1>
    <hive,1>
    -MAP-02
    -MAP-03
    -reduce-01
    a-zA-Z
- reduce-02
  other

總結shuffle過程：

分割槽partition
排序sort
拷貝copy——使用者無法干預
分組group
壓縮compress——可設定
合併 combiner map任務端的reduce——可設定
step 4:
- reduce:
  - reduce(KEYIN, VALUEIN,KEYOUT,VALUEOUT)
  - map輸出的<key, value>資料型別與reduce輸入的<key, value>資料型別一致
step 5：
- output
  - OutPutFormat
- FileOutputFormat
  - TextOutputFormat
    - 每個<key, value>對，輸出一行，key和value之間用\t分隔，預設呼叫key和value的toString()方法

MapReduce調優

reduce task 數量。設定的兩種方法：
- mapreduce.job.reduces
- job.setNumReduceTasks(1);
map task 輸出壓縮
shuffle 引數

大資料Hadoop學習筆記（四）

MapReduce執行過程 ======== step1 ： input InputFormat 讀取資料轉換成<key, value>

大資料Hadoop學習筆記（三）

1.HDFS架構講解 2.NameNode啟動過程 3.YARN架構組建功能詳解 4.MapReduce 程式設計模型 HDFS架構講解源自谷歌的GFS論文 HDFS： *抑鬱擴充套件的分散式系統 *執行在大量普通的鏈家機器上，提供容錯機制 *為

大資料Hadoop學習筆記（二）

Single Node Setup 官網地址 1. 本地模式 2.偽分散式模式 ************************* 本地模式 **************************** . grep input output ‘dfs[a-

大資料Hadoop學習筆記（一）

大資料Hadoop2.x hadoop用來分析儲存網路資料 MapReduce：對海量資料的處理、分散式。思想————> 分而治之，大資料集分為小的資料集，每個資料集進行邏輯業務處理合並統計資料結果（reduce）執行模式：本地模式和yarn模式 input—

大資料Hadoop學習筆記（五）

分散式部署本地模式Local Mode 分散式Distribute Mode 偽分散式一臺機器執行所有的守護程序從節點DN和NM只有一個完全分散式

大資料Hadoop學習筆記（六）

HDFS HA 背景：在hadoop2.0之前，HDFS叢集中的NameNode存在單點故障（SPOF）對於只有一個NameNode的叢集，若NameNode機器出現故障，則整個叢集將無法使用，直到NameNode重新啟動 NameNode主要在一下兩方面影響

大資料入門學習筆記（貳）- 初識Hadoop

文章目錄 Hadoop概述 Hadoop能做什麼 Hadoop核心元件分散式檔案系統HDFS 分散式檔案系統HDDS 資源排程系統YARN 分散式計算框架MapReduce Had

HADOOP學習筆記（四）：HBase

系統唯一性創建時間必須就是入口計算 hfile mapreduce HBase簡介 Hbase是分布式、面向列的開源數據庫（其實準確的說是面向列族）。HDFS為Hbase提供可靠的底層數據存儲服務，MapReduce為Hbase提供高性能的計算能力，Zooke

大資料入門學習筆記（叄）- 布式檔案系統HDFS

文章目錄 HDFS概述及設計目標什麼是HDFS HDFS的設計目標 HDFS架構 HDFS副本機制副本存放策略![在這裡插入圖片描述](https://img-blog.csdnimg.cn/20181

大資料入門學習筆記（壹） - 大資料概述

文章目錄大資料故事大資料背景大資料基本概念大資料定義大資料4V特徵大資料要解決的問題大資料涉及到的技術大資料帶來的技術挑戰在技術架構上的挑戰其他挑戰

spark快速大資料分析學習筆記（1）

本文是《spark快速大資料分析學習》第三章學習筆記，文中大量摘抄書中原本，僅為個人學習筆記。 RDD基礎： RDD是一個不可變的分散式物件集合。每個RDD都被分為多個分割槽，這個分割槽執行在叢集的不同節點上。RDD可以包含Python、Java、Scala中任意型別的物件。建立RDD的方式：

資料結構學習筆記（四）圖之鄰接表實現深度優先遍歷

一下是使用鄰接表儲存表示，實現圖的深度優先遍歷的示例。用於遍歷的有向圖如下: #include<iostream> #define MaxVertexNum 6 using namespace std; //抽象資料型別 typedef c

Golang學習筆記（四）資料型別轉換

整數型別和浮點型別的轉換，先申明兩個變數，一個是int型的，一個是float型的。 chinese := 90 english := 80.9 將int型的強轉為float型，可以使用float32()或float64()，如float32(int型變數) avg1 := (floa

大資料分析學習筆記（Z檢驗，分類器以及Association Rule）

大資料分析學習筆記（Z檢驗，分類器以及Association Rule） Task 1 – Hypothesis Testing To improve student learning performance, a teacher developed two new learning app

《Hadoop權威指南》學習筆記（四）

1 Yarn的MapReduce工作流程經典的MapReduce頂層包括5個獨立實體客戶端，提交MapReduce作業 YARN資源管理器，協調叢集上計算資源分配 YARN節點管理器，負責啟動和監視叢集中的container MapReduce應用程式

Python自動化學習筆記（四）——Python資料型別（集合set,元組tuple）、修改檔案、函式、random常用方法

1.修改檔案的兩種方式 1 #第一種 2 with open('users','a+') as fw: #用a+模式開啟檔案，使用with這種語法可以防止忘記close檔案 3 fw.seek(0) #移動檔案指標到最前面，然後才能讀到內容 4 result=fw.read()

SAP標準培訓課程C4C10學習筆記（四）第四單元：產品和價格主資料

這個單元的內容是產品主資料和Price list。產品主資料 Hierarchy UI上按鈕New的enable/disable邏輯 SAP CRM和C4C資料同步的兩種方式概述:SAP PI和HCI 一種輕量級的C4C業務資料同步到S/4HANA的方式：Odata通知如何啟用SAP C4C4

內建資料型別（上）---Python基礎學習筆記（四）

內建資料的三大主要型別： 1、數字（整數、浮點數） 2、序列（字串、列表、元組） 3、對映（字典）按照是否可原地修改值分兩大類：不可變物件（數字，字串，元組，不可變集合）可變物件（列表，字典，可變集合）一、整數（不

機器學習筆記（四）——最大似然估計

一、最大似然估計的基本思想最大似然估計的基本思想是：從樣本中隨機抽取n個樣本，而模型的引數估計量使得抽取的這n個樣本的觀測值的概率最大。最大似然估計是一個統計方法，它用來求一個樣本集的概率密度函式的引數。二、似然估計在講最小二乘法的時候，我們的例

Hadoop HDFS原始碼學習筆記（四）

一、首先根據HDFS的API寫一段程式，然後是用Eclipse進行debug 單步跟蹤，從而檢視原始碼執行流程： import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.a

大資料Hadoop學習筆記（四）

MapReduce執行過程

MapReduce調優

相關推薦