1. 程式人生 > 其它 >【回顧】一、Hadoop常用的基礎知識點

【回顧】一、Hadoop常用的基礎知識點

一、埠號

hdfs:50070

mr:8088

歷史伺服器:19888

二、配置檔案

core-site、yarn-site、mapred-site、hdfs-site、slave

ssh免密登入,配置核心檔案,namenode格式化

三、hdfs讀寫流程

讀資料:hdfs-client向namenode請求讀取資料,namenode返回該目標檔案的元資料,hdfs-client通過fsdataInpute向datanode讀取資料,datanode傳輸資料給客戶端。

寫資料:本地有個檔案塊,hdfs-client通過分散式檔案系統請求上傳一個檔案路徑,namenode判斷是否可以上傳,響應可以上傳的話,並給出儲存datanode的節點,hdfs-client向datanode請求建立block傳輸通道,datanode應答成功,傳輸packet到bytebuffer。

四、小檔案問題

影響:佔據namenode記憶體空間,每個檔案開啟一個maptask,佔據計算資源。namenode記憶體預設2000M

解決:歸檔har;採用combineTextInputeFormat;jvm重用

糾刪碼原理:cpu資源換儲存空間;

異構儲存,冷熱資料分離

五、shuffer過程

分map、reduce過程。

map有環形緩衝區,歸併,排序,合併,壓縮,寫磁碟

reduce階段,拉取map分割槽的結果資料到記憶體,歸併排序,按key分組

六、yarn工作機制

圖解

七、yarn排程器

fifo:單佇列,先進先出

容量排程器:多佇列,使用效率低的佇列,按任務提交的時間,優先順序

公平排程器:多佇列,每個任務呼叫資源都是一樣的