1. 程式人生 > >每天10分鐘——10.25

每天10分鐘——10.25

1.hadoop一般廣義和狹義分別指什麼

hadoop生態圈,hadoop軟體 

2.hadoop軟體哪三個組成

hdfs yarn mapreduce 

3.hdfs偽分散式的程序簡寫分別是什麼?

nn,dn,snn 

4.yarn偽分佈的程序簡寫分別是什麼?

nm,rm

5.NN節點是幹什麼的

記錄資料節點,維護目錄,接受DN的心跳資訊 

6.DN是幹什麼的

儲存資料

7.簡述副本放置策略

就近原則

8.簡述 SNN是幹什麼的

合併editlog和fsimage 

9.簡述HDFS讀寫流程

讀:客戶端傳送請求到NN,獲取塊資訊給客戶端呼叫read讀取最近的塊資訊
寫:客戶端傳送請求到NN,NN建立路徑,此時資料開始從客戶端寫入第一個DN,然後由DN複製到下一個,直到副本滿足建立要求

10.塊128M,三個副本,一個檔案260M,多少塊,多少實際儲存

9個塊,實際使用260*3 

11.為什麼為什麼hdfs不適合儲存小檔案

因為小檔案太多會讓NN節點壓力過大,檔案讀取速度變慢 

12.hadoop fs命令等價什麼命令

hdfs dfs 

13.hdfs命令的上傳下載

put	get 

14.如果讓你們檢視hdfs dfs命令幫助,會不會

hdfs dfs --help 

15.談談你們對shuffle的理解

洗牌,將所有key值相同的放在一起 

16.MapReduce分為哪兩個階段

map和reduce 

17.簡述mr job提交yarn的工作流程

申請資源,提交map作業,進行reduse作業,

18.hdfsyarn預設埠web的,分別多少

50070 8088

19.假如讓你們去官網找配置

hadoop.apach.org官網的文件查詢配置檔案說明

20.什麼叫容器container

emmm簡單說就是動態資源分配