Hadoop知識點總結！！！

阿新 • • 發佈：2018-11-10

沒什麼好解釋的，純粹的乾貨分享。。。

Hadoop：
   1.Hadoop的四大模組:
       1.common:基礎模組，用於支撐其他模組
       2.mapruedce：分散式計算框架
       3.YARN：分散式資源排程框架
       4.HDFS：分散式檔案系統

   2.埠：

       1.HDFS：8082 webUI埠：8088
       2.YARN：8032 webUI埠：50070
       3.zookeeper：2181
       4.JobHistoryServer:19888

   3.Hadoop2.x分散式搭建的詳細過程：

       一：linux相關：
           1.ip，閘道器，DNS
           2.hostname，本地域名解析對映（hosts）
           3.關閉防火牆，selinux
           4.ssh免金鑰登陸
           5.ntp時間同步
           6.jdk配置
       二：Hadoop相關:
           1.上傳，解壓
           2.修改配置
               -》修改-evn.sh
                   hadoop、yarn、mapred
               -》core-site.xml
                   hdfs入口，臨時檔案目錄
               -》hdfs-site.xml
                   副本數、訪問許可權、secondary節點
               -》mapred-site.xml
                   執行的框架、JobHistoryServer節點
               -》yarn-site.xml
                   resourceManager的地址、mapreduce執行方式、日誌聚集
               -》slaves
                   所有從節點地址
       三：分發檔案
       四：格式化檔案系統
       五：啟動：
               先啟動hdfs後啟動yarn

   4.Hadoop2.x中HDFS與YARN的四個程序的功能及啟動方式

       4個程序的功能：
           NameNode的功能：
               -》處理客戶端發過來的請求
               -》管理從節點
               -》管理元資料
           DataNode的功能：
               負責資料運輸、負責讀寫資料的功能
           ResourceManager的功能：
               負責叢集資源的管理和任務排程、處理使用者的請求、管理從節點
           NodeManager的功能：
               負責處理所有任務
       4個程序的啟動：
           sbin/hadoop-daemon.sh start namenode
           sbin/hadoop-daemon.sh start datenode
           sbin/yarn-daemon.sh start resourcemanager
           sbin/yarn-daemon.sh start nodemanager

   5.jar包提交執行在yarn上的執行流程
       1.使用者提交jar包，向resourcemanager請求提交任務
       2.resourcemanager接受任務，並隨機選擇一臺nodemanager啟動appmaster
       3.appmaster向resourcemanager請求資源
       4.resourcemanager分配資源，並將資源分配資訊返回給appmaster
       5.appmaster聯絡nodemanager啟動相關Task
           ps：Task：maptask的個數由資料塊的個數決定；
ruducetask的個數可以自己設定
每個task都會呼叫各自的方法：map方法的呼叫次數由資料的行數決定；
reduce方法的呼叫次數由key的型別個數決定。
       6.執行的task時刻向appmaster彙報進度
       7.reduce task將執行結果返回給appmaster
       8.appmaster將結果返回給resourcemanager，並登出自己

   6.請描述MapReduce執行的五大過程，包含詳細的shuffle過程
       input
           1.讀取HDFS上檔案資料
           2.將資料轉成keyvalue形式，key是行偏移量，value是行內容
       map
           接收input的輸出
           根據分片的個數，啟動相應task
           每個map task對每條keyvalue呼叫map方法進行處理
       shuffle
           ->Map shuffle
               將map輸出的資料輸入環形緩衝區內
               在緩衝區進行分割槽，對每個分割槽進行排序
               達到閾值80%開始溢寫到磁碟，變成小檔案
               溢寫結束，將所有小檔案進行合併，並且對每個分割槽進行排序
               map task結束，通知appMaster
           ->reduce shuffle
               app master通知reduce，reduce去每個map task拉取屬於自己分割槽的資料。
               對屬於自己分割槽的資料進行合併，並排序
               對相同key進行分組
       reduce
           讀取shuffle的輸出，對每一種key,呼叫reduce方法進行處理
       output
           將reduce的輸出寫入到hdfs中
   7.請寫出自定義資料型別時，需要繼承哪些類，以及實現的方法及其功能
                   ps：編寫MapReduce模板
                       Driver：
                           -》不繼承也不實現
                           -》繼承和實現 -官方推薦
                               extends Configured implements Tool
                           -》不繼承只實現 - 企業用的最多
                           implements Tool
      實現Writable/WritableComparable介面
       定義屬性，並生產對應get、set方法。獲取值和賦值
       write：序列化
       readFiled：反序列化
       compareTo:比較
       toString：轉換為String型別物件
       無參和有參構造方法：初始化構建
       hashCode和equals：比較驗證

   8.元資料：（描述資料的資料）
       元資料在哪裡？？？？？：
           儲存在記憶體中，也儲存在磁碟(存放的檔案：fsimage)
       由誰來同步元資料：
           secondaryNameNode功能：
           輔助Namnode同步本地元資料
           fsimage(old) + edits = fsimage(new)

Hadoop知識點總結！！！

沒什麼好解釋的，純粹的乾貨分享。。。 Hadoop： 1.Hadoop的四大模組: 1.common:基礎模組，用於支撐其他模組 &

Hadoop知識點總結（一）

HADOOP hadoop的概念 Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。使用者可以在不瞭解分散式底層細節的情況下，開發分散式程式。充分利用叢集的威力進行高速運算和儲存。它主要有以下幾個優點：高可靠性:Hadoop按位儲存和處理

hadoop知識點總結（一）hadoop架構以及mapreduce工作機制

１，為什麼需要hadoop 資料分析者面臨的問題資料日趨龐大，讀寫都出現效能瓶頸；使用者的應用和分析結果，對實時性和響應時間要求越來越高；使用的模型越來越複雜,計算量

Hadoop知識點總結

之前自己在慕課網線上學習了關於hadoop的初步知識，在此記錄一下： hadoop主要是由兩部分構成：1、HDFS，負責儲存，為分散式檔案系統；2、MapReduce，是並行處理框架，用於實現任務的分解和排程。 hadoop的優勢：1、高擴充套件：通過新增硬體來實現效能的提

python中列表的知識點總結，出自python程式設計從入門到實踐！

訪問列表元素列表是有序集合，因此要訪問列表的任何元素，只需將該元素的位置或索引告訴 Python 即可。要訪問列表元素，可指出列表的名稱，再指出元素的索引，並將其放在方括號內。 &n

Python初學者學習知識點總結！（零基礎必看）

計算機顧名思義就是可以做數學運算的機器，因此，計算機程式理所當然地可以處理各種數值，但是計算機能處理的遠遠不止數值，還可以處理文字、圖形、音訊、視訊網頁等各種資料，不同的資料，需要定義不同的資料型別。 python資料型別 1 Number(數字) 2 整數 3

[乾貨]總結的真好，Android重點知識點總結，不看你會後悔！

Activity的生命週期和啟動模式相關 1、當前Activity的onPause方法執行結束後才會執行下一個Activity的onCreate方法，所以在onPause方法中不適合做耗時較長的工

C語言操作符總結+詳解！

下表即為C語言全部常用的操作符操作符的優先順序從高至低按由上到下的順序排列操作符描述用法示例結果型別結合性是否控制求值順序（）聚組

Thinkphp各個版本總結------終結版本！

Thinkphp各個版本總結：tp3.2.3，tp5.0，tp5.1差異終得閒暇時間(也就兩三個小時)能夠進行這6個月對tp框架的使用總結了： 1.框架隱藏模組差異： tp3.2.3：其實還比較麻煩 //隱藏入口檔案在與入口檔案同級目錄，將.htaccess檔案中 Rewri

易學筆記--從0開始學JAVA（個人純手工筆記共享免費！免費！免費！）--比直接看書快N倍的速度掌握知識點--總共19章（更新完畢）

易學筆記--從0開始學JAVA（個人純手工筆記共享免費！免費！免費！）--比直接看書快N倍的速度掌握知識點--第1章物件導論易學筆記--從0開始學JAVA（個人純手工筆記共享免費！免費！免費！）--比直接看書快N倍的速度掌握知識點--第2章一切都是物件易學筆記--從0開

程式設計師兩個月面試30家公司全部失敗！血淚總結面試經驗！

大概一年前，研究生畢業踏上了找工作之旅七月的北京，特別的熱為了找到一個好一點的工作，在北京城四處穿梭經過前期的一些列準備，也通過很多公司的筆試在八月的時候正式的開始了各種面試剛開始的面試是特別不順利的整個一個月

兄臺別走，帶您去看Hadoop和Spark的不同！！！

一、Spark它主要包含以下幾個方面： Spark Core – 用於通用分散式資料處理的引擎。它不依賴於任何其他元件，可以執行在任何商用伺服器叢集上。 Spark Sql – 執行在Spark上的SQL查詢語句，支援一系列SQL函式和HiveQL。但是還不是很成熟，所以不要在生產系統中使用

javascript中還有幾個知識點沒弄懂！現在沒時間弄懂，到時候回過頭來再理解這幾個知識點,先記錄一下

javascript中還有幾個知識點沒弄懂！現在沒時間弄懂，到時候回過頭來再理解這幾個知識點,先記錄一下 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>

setprecision、fixed、showpoint的用法總結（經典！！超經典！！）

首先要加標頭檔案：iomanip 一：setprecision 作用：控制輸出流顯示浮點數的數字個數，setprecision(n)就是輸出的n個數，會有四捨五入。比如:double s=20.7843000, cout<<setprecisio

最詳細的大資料之Hadoop分散式系統架構解析！沒有之一！

Hadoop 由許多元素構成。其最底部是 Hadoop Distributed File System（HDFS），它儲存 Hadoop 叢集中所有儲存節點上的檔案。HDFS（對於本文）的上一層是MapReduce引擎，該引擎由 JobTrackers 和 TaskTrack

BZOJ 刷題總結(持續更新！！)

背景辣雞的人總要想法自救，便產生了寒假學些新演算法、在Bzoj刷些題的想法。一來為明年省賽做準備…壓力不小；二來寒假也可以有些事情做。 PS 1.不定時更新做題的思路和吐槽 2.按照hzw刷題順序訓練，具體依照BZOJ題表 3.希望寒假能夠至少刷

這是一篇最通熟易懂的Hadoop HDFS實踐攻略！

作者介紹：杜亦舒，創業中，技術合夥人，喜歡研究分享技術。個人訂閱號：效能與架構。 HDFS是用來解決什麼問題？怎麼解決的？如何在命令列下操作HDFS？如何使用Java API來操作HDFS？在瞭解基本思路和操作方法後，進一步深究HDFS具體的讀寫資料流程學習並實踐本文教程後，可以對HDF

[視訊講解]史上最全面的正則化技術總結與分析！

作者：黃海安編輯：欒志勇 PART 01 摘要引言正則化是一種有效的防止過擬合、提高模型泛化能力方法，在機器學習和深度學習演算法中應用非常廣泛，本文從機器學習正則化著手，首先闡述了正則化技術的一般作用和概念，然後針對L1和L2範數正則從4個方面深入理解，最後對常用的典型演算法應用進行了分

hadoop原來是這樣的！

Hadoop是什麼？ Hadoop是一個開發和執行處理大規模資料的軟體平臺,是Appach的一個用java語言實現開源軟體框架，實現在大量計算機組成的叢集中對海量資料進行分散式計算. Hadoop框架中最核心設計就是：HDFS和MapReduce.HDFS提供了海量資料的儲存,MapRedu

Python 快速入門知識點：基礎語法！

Python 是一種高層次的結合瞭解釋性、編譯性、互動性和麵向物件的指令碼語言。Python 由 Guido van Rossum 於 1989 年底在荷蘭國家數學和電腦科學研究所發明，第一個公開發行版發行於 1991 年。 ''' 作者：韭白源自： https://www.cnblogs.c

Hadoop知識點總結！！！

沒什麼好解釋的，純粹的乾貨分享。。。

8.元資料：（描述資料的資料） 元資料在哪裡？？？？？： 儲存在記憶體中，也儲存在磁碟(存放的檔案：fsimage) 由誰來同步元資料： secondaryNameNode功能： 輔助Namnode同步本地元資料 fsimage(old) + edits = fsimage(new)

相關推薦

8.元資料：（描述資料的資料）
元資料在哪裡？？？？？：
儲存在記憶體中，也儲存在磁碟(存放的檔案：fsimage)
由誰來同步元資料：
secondaryNameNode功能：
輔助Namnode同步本地元資料
fsimage(old) + edits = fsimage(new)