1. 程式人生 > >每天彙總----10.18

每天彙總----10.18

1.hdfs 偽分散式哪三個程序,簡寫  NN DN SNN

2.yarn偽分散式哪兩個程序,簡寫 RM NM

3.簡述 nn做什麼的?   管理檔案系統的名稱空間,維護檔案系統的目錄樹的,定期接受來自DN的blockmap

4.簡述 snn是做什麼的那幅圖,是否能夠描述清楚?  定期來去NN上的fsimage和editlog合併成新的fsimage.ckpt並返滬給NN

5.一個檔案130M,block設為128M,系統設定3副本,請問多少塊,多少儲存   6個block,儲存390M

6.拓展題:  所以,假如都是5M  10M 20M這些小檔案,我們是不是為了避免nn節點記憶體的壓力,要不合並這些小檔案,要不就將冷資料遷移到比如oss,s3儲存上      是的,NN上不適合儲存大量的小檔案,無論小檔案還是大檔案都將佔用相同的NN資源,小檔案太多了會對NN造成很大的壓力

7.假如讓你找配置引數,你會在官網找嗎    區分是***-env.sh檔案中配置的還是在xml檔案中配置的,然後再去官網中的doc中查詢

8.簡述你們對shuffle的理解  通俗一點解釋叫洗牌,不同節點上的資料進行重新分配

9.簡述什麼是資料本地化  DN和NM部署在同一個節點上,是的計算和資料儲存不同的網路io來傳輸

10.簡述mr提交到yarn上    第一階段是client將作業提交到yarn上面,yarn為其分配contanier和開啟ApplicationMaster程式,第二階段是ApplicationMaster申請資源並分配tasks到相應的container,同時監控他們

11.hive資料分為 元資料和資料,那麼你們課程中,分別儲存在哪裡    mysql hdfs,hive上的元資料一般儲存在關係型資料庫當中