1. 程式人生 > 其它 >【大資料面試】【框架】Hadoop-入門、HDFS

【大資料面試】【框架】Hadoop-入門、HDFS

一、入門

1、常用埠號

2.x

50070:檢視HDFS Web-UI

8088:檢視MapReduce執行情況

19888:歷史伺服器

9000:hdfs客戶端訪問叢集

50090等

3.x:

50070-->9870

9000-->8020

3、Hadoop的8個配置檔案

4個組成模組(common、hdfs、yarn、MapReduce)

common-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml

hadoop-env.sh yarn-env.sh mapred-env.sh slaves(不能有空行、不能有空格)

二、HDFS

1、HDFS的讀寫流程(筆試題)

Client-->NameNode-->DataNode

https://www.cnblogs.com/laowangc/p/8949850.html

2、HDFS的小檔案問題

1)小檔案過多會帶來哪些問題(會產生哪些影響)

  • NameNode記憶體:一個檔案塊佔用namenode的記憶體大小為150個位元組

(壓縮前:一億個小檔案,就是一億個*150個位元組)

(壓縮後:壓縮成一個檔案,即1*150位元組)

(壓縮方式:har歸檔到一個檔案內《用的比較多》、自定義InputFormat,把資料放置sequenceFile中取)

【128G的nameNode能儲存多少個檔案塊?==》128G/150位元組=128*1024*1024*1024(byte)/150≈9億】

  • 影響分片==>影響Map Tsak的個數

(預設一個檔案一個切片)

(方式1:企業採用har歸檔,將小檔案歸檔,或自定義InputFormat,把資料放入sequenceFile內部)

(方式2:採用CombineInputFormat先對檔案聚合,聚合後再對檔案切片)

  • 程序負載過高

解決:採用JVM重用

開始-執行任務-結束-開始-執行任務-結束==》開始-執行任務-執行任務-執行任務-執行任務-結束

如果沒有小檔案場景,就不要開啟小檔案,不然會鎖死執行緒

(配置檔案set JVM=true)

三、MapReduce

四、Yarn

本文來自部落格園,作者:劉金輝,轉載請註明原文連結:

https://www.cnblogs.com/liujinhui/p/15669399.html