1. 程式人生 > >hadoop常見問題

hadoop常見問題

時間 cli hunk 可靠性 manage 效果 jar datanode 標識

1。運行mapreduce程序出錯,
connection to resourcemanager
retrying ...
retrying ...
原因是沒有啟動yarn或者啟動失敗

2.hdfs namenode -format 只是初始化了namenode的工作目錄
而datanode的工作目錄是在datanode啟動後自己初始化的

3。datanode 不被namemode識別的問題
namenode在format初始化的時候會形成兩個標識
blockpoolId
clusterId
新的datanode加入時,會獲取這兩個標識作為自己工作目錄中的標識
一旦namenamenode重新format後,namenode的身份標識已經改變,而datanode如果依然持有原來的ID,就不會被namenode識別
解決辦法是刪除(清空)datanode的工作目錄

4。datanode下線後多久看到效果,(頁面上不會立即顯示出已經下線)
有一個超時時間,超過了這個時間才被認定下線

5.關於副本數量的問題
副本數由客戶端的參數dfs.replication決定(優先級:代碼中的conf.set> 自定義配置文件>jar包中的hdfs-default.xml)

上傳數據時 datanode的選擇策略
1第一個副本先考慮跟client最近的datanode
第二個副本再考慮跨機架挑選一個datanode,增加副本的可靠性
3.選擇同機架的一個datanode


文件傳輸是以packet為單位的64kb ,在packet中有chunk概念,chunk是512字節會校驗一次

hadoop常見問題