【大資料面試】【框架】Hadoop-入門、HDFS
一、入門
1、常用埠號
2.x
50070:檢視HDFS Web-UI
8088:檢視MapReduce執行情況
19888:歷史伺服器
9000:hdfs客戶端訪問叢集
50090等
3.x:
50070-->9870
9000-->8020
3、Hadoop的8個配置檔案
4個組成模組(common、hdfs、yarn、MapReduce)
common-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml
hadoop-env.sh yarn-env.sh mapred-env.sh slaves(不能有空行、不能有空格)
二、HDFS
1、HDFS的讀寫流程(筆試題)
Client-->NameNode-->DataNode
https://www.cnblogs.com/laowangc/p/8949850.html
2、HDFS的小檔案問題
1)小檔案過多會帶來哪些問題(會產生哪些影響)
- NameNode記憶體:一個檔案塊佔用namenode的記憶體大小為150個位元組
(壓縮前:一億個小檔案,就是一億個*150個位元組)
(壓縮後:壓縮成一個檔案,即1*150位元組)
(壓縮方式:har歸檔到一個檔案內《用的比較多》、自定義InputFormat,把資料放置sequenceFile中取)
【128G的nameNode能儲存多少個檔案塊?==》128G/150位元組=128*1024*1024*1024(byte)/150≈9億】
- 影響分片==>影響Map Tsak的個數
(預設一個檔案一個切片)
(方式1:企業採用har歸檔,將小檔案歸檔,或自定義InputFormat,把資料放入sequenceFile內部)
(方式2:採用CombineInputFormat先對檔案聚合,聚合後再對檔案切片)
- 程序負載過高
解決:採用JVM重用
開始-執行任務-結束-開始-執行任務-結束==》開始-執行任務-執行任務-執行任務-執行任務-結束
如果沒有小檔案場景,就不要開啟小檔案,不然會鎖死執行緒
(配置檔案set JVM=true)
三、MapReduce
四、Yarn
本文來自部落格園,作者:劉金輝,轉載請註明原文連結: