【回顧】一、Hadoop常用的基礎知識點
阿新 • • 發佈:2021-11-02
一、埠號
hdfs:50070
mr:8088
歷史伺服器:19888
二、配置檔案
core-site、yarn-site、mapred-site、hdfs-site、slave
ssh免密登入,配置核心檔案,namenode格式化
三、hdfs讀寫流程
讀資料:hdfs-client向namenode請求讀取資料,namenode返回該目標檔案的元資料,hdfs-client通過fsdataInpute向datanode讀取資料,datanode傳輸資料給客戶端。
寫資料:本地有個檔案塊,hdfs-client通過分散式檔案系統請求上傳一個檔案路徑,namenode判斷是否可以上傳,響應可以上傳的話,並給出儲存datanode的節點,hdfs-client向datanode請求建立block傳輸通道,datanode應答成功,傳輸packet到bytebuffer。
四、小檔案問題
影響:佔據namenode記憶體空間,每個檔案開啟一個maptask,佔據計算資源。namenode記憶體預設2000M
解決:歸檔har;採用combineTextInputeFormat;jvm重用
糾刪碼原理:cpu資源換儲存空間;
異構儲存,冷熱資料分離
五、shuffer過程
分map、reduce過程。
map有環形緩衝區,歸併,排序,合併,壓縮,寫磁碟
reduce階段,拉取map分割槽的結果資料到記憶體,歸併排序,按key分組
六、yarn工作機制
圖解
七、yarn排程器
fifo:單佇列,先進先出
容量排程器:多佇列,使用效率低的佇列,按任務提交的時間,優先順序
公平排程器:多佇列,每個任務呼叫資源都是一樣的