怎麼hadoop深入學習?
隨著計算機網路基礎設施的完善,社交網路和電商的發展以及物連網的推進,產生了越來越多的大資料,使得人工智慧最近幾年也有了長足的發展,大資料的儲存和處理也越來越重要,國家對此也比較重視,學習大資料和人工智慧的人也越來越多,Hadoop是目前世界上最流行的分散式資料處理框架,是大資料學習必學的框架知識。
初學Hadoop,最基礎的也就是HDFS和Mapreduce了,HDFS是一個分散式儲存檔案系統,Mapreduce是一個分散式計算的框架,兩者結合起來,就可以很容易做一些分散式處理任務了。
Hadoop的學習可以從以下幾個部分進行學習:
一、Hadoop介紹和環境搭建
1. Hadoop生態環境介紹
2. Hadoop雲端計算中的位置和關係
3. 國內外Hadoop應用案例介紹
4. Hadoop概念、版本、歷史
5. Hadoop核心組成介紹及hdfs、mapreduce體系結構
6. Hadoop獨立模式安裝和測試
7. Hadoop的叢集結構
8. Hadoop偽分佈的詳細安裝步驟
9. 通過命令列和瀏覽器觀察Hadoop
10. Hadoop啟動指令碼分析
11. Hadoop完全分散式環境搭建
12. Hadoop安全模式、回收站介紹
二、HDFS體系結構和Shell以及Java操作
1. HDFS底層工作原理
2. HDFSdatanode,namenode詳解
3. 單點故障(SP0F)和高可用(HA)
4. 通過API訪問HDFS
5. 常用壓縮演算法介紹和安裝使用
6. Maven介紹和安裝,eclipse中使用Maven,搭建Maven本地倉庫
三、Mapreduce學習
1. Mapreduce四個階段介紹
2. Job、Task介紹
3. 預設工作機制
4. 建立MR應用開發,獲取年度的最高氣溫
5. 在Windows上執行MR作業
6. Mapper、Reducer
7. InputSplit和OutputSplit
8. Shuffle:Sort,Partitioner,Group,Combiner
9. 通過計數器除錯程式
10. 在Windows安裝Hadoop
11. 在eclipse安裝Hadoop外掛,訪問Hadoop資源
12. 在eclipse中編寫ant指令碼
13. YARN排程框架事件分發機制
14. 遠端除錯資源管理器
15. Hadoop的底層google ProtoBuf的協議分析
16. Hadoop底層IPC原理和RPC
四、Hadoop高可用-HA
1. Hadoop2.x叢集結構體系介紹
2. Hadoop2.x叢集搭建
3. NameNode的高可用性(HA)
4. HDFS Federation
5. ResourceManager的高可用性(HA)
6. Hadoop叢集常見問題和解決辦法