每天彙總----10.15
1.談談如何理解shuffle 可以理解為洗牌,就是將各個節點上的資料進行重新分配的過程
2.簡述 mr提交到yarn的工作流程 一階段:client想RM提交作業,二階段:RM處理使用者請求,分配資源
3.yarn哪兩個程序 ResourceManager和NodeManager
4.yarn的資源調優引數,是否會配置? 包括hadoop-env.sh,yarn-env.sh等
5.談談你對jps命令的理解 jps是顯示當前所有java程序pid的命令,/tmp/hsperfdata_{userName}/
6.談談你們對pid的理解 /tmp目錄下的pid檔案用於儲存個程序的pid號,如果非正常刪除不會對程序的執行有影響,但在重啟程序時會造成程序混亂,所以最後不要配置在/tmp目錄下
7.hdfs讀流程是output嗎 不是讀流程使用的java物件是FSDataInputStream
8.一個檔案160M,64M的塊大小,三個副本,請問塊多少,實際儲存多少 9個塊,實際儲存480M
9.pid檔案人為刪除,會影響服務正常執行嗎?那麼會影響什麼? 不會,但影響關閉和重啟程序
10.hdfs dfs等價於什麼命令 hadoop fs
11.預設的hdfs,yarn web的埠號多少 50070 8088
12.假如讓你們修改預設的埠號,你們想想會不會去官網網站的預設配置檔案找呢??? 去到官網,點選documentation,在左側欄目的最下端有各元件的預設配置檔案,從裡面找相關的引數修改
13.hdfs和yarn程序的記憶體大小 在哪個檔案配置 4G和3G,hadoop-env.sh和yarn-env.sh
14.談談什麼是資料本地化 DN和NM在同一個物理節點上
15.假如NN節點進入安全模式,你們應該覺得怎麼做 hdfsadmin leave,如果不成果就去看日誌
16.副本放置策略,假如提交的DN節點,那麼第一個副本存哪裡 就在提交的各DN上
17.hadoop家目錄裡,怎樣找到example jar包 find ./ -name '*examples*.jar'
18.你們覺得 命令幫助怎麼看? 先看usage,再看引數