【Hadoop學習】補充:優化、新特性
阿新 • • 發佈:2021-11-04
一、資料壓縮
1、概述
原則:IO密集而不是計算密集的job
壓縮演算法選擇
2、壓縮位置選擇
通過引數進行配置
3、壓縮例項:
資料流的壓縮和解壓縮
Map輸出端採用壓縮
Reduce輸出端採用壓縮
二、企業優化
1、概述
從六個方面考慮:資料輸入、Map階段、Reduce階段、IO傳輸、資料傾斜問題和常用的調優引數
資料輸入:合併小檔案、Combine格式輸入
Map階段:減少溢寫及合併次數
Reduce階段:合理設定Map、Reduce(規避使用),二者需要共存,合理設定reduce的buffer
IO傳輸:資料壓縮、使用sequence二進位制檔案
資料傾斜問題(大小傾斜/頻率傾斜):抽樣、自定義分割槽、combine
調優引數:資源相關引數(mapred-default.xml)、yarn相關的引數(yarn-default.xml)、容錯相關引數
2、小檔案優化
三、Hadoop新特性
1、叢集間資料拷貝(scp、distcp遞迴複製)
2、小檔案存檔
啟動yarn,使用命令bin/hadoop archive歸檔和解歸檔
3、回收站
core-site.xml中配置fs.trash.interval
路徑/user/atguigu/.Trash/….
清空回收站:hadoop fs -expunge
4、多NN的HA和糾刪碼
執行多個備用NameNode
四、HA高可用
1、概述
HA(High Availablity)
雙NameNode消除單點故障
故障轉移機制
2、叢集配置
ZK叢集、HDFS叢集、YARN叢集、
3、HDFS Federation
單個NameNode的HDFS架構,因此整個HDFS檔案系統的吞吐量受限於單個NameNode的吞吐量,受到Namespace(名稱空間)的限制