每天彙總----10.18
1.hdfs 偽分散式哪三個程序,簡寫 NN DN SNN
2.yarn偽分散式哪兩個程序,簡寫 RM NM
3.簡述 nn做什麼的? 管理檔案系統的名稱空間,維護檔案系統的目錄樹的,定期接受來自DN的blockmap
4.簡述 snn是做什麼的那幅圖,是否能夠描述清楚? 定期來去NN上的fsimage和editlog合併成新的fsimage.ckpt並返滬給NN
5.一個檔案130M,block設為128M,系統設定3副本,請問多少塊,多少儲存 6個block,儲存390M
6.拓展題: 所以,假如都是5M 10M 20M這些小檔案,我們是不是為了避免nn節點記憶體的壓力,要不合並這些小檔案,要不就將冷資料遷移到比如oss,s3儲存上 是的,NN上不適合儲存大量的小檔案,無論小檔案還是大檔案都將佔用相同的NN資源,小檔案太多了會對NN造成很大的壓力
7.假如讓你找配置引數,你會在官網找嗎 區分是***-env.sh檔案中配置的還是在xml檔案中配置的,然後再去官網中的doc中查詢
8.簡述你們對shuffle的理解 通俗一點解釋叫洗牌,不同節點上的資料進行重新分配
9.簡述什麼是資料本地化 DN和NM部署在同一個節點上,是的計算和資料儲存不同的網路io來傳輸
10.簡述mr提交到yarn上 第一階段是client將作業提交到yarn上面,yarn為其分配contanier和開啟ApplicationMaster程式,第二階段是ApplicationMaster申請資源並分配tasks到相應的container,同時監控他們
11.hive資料分為 元資料和資料,那麼你們課程中,分別儲存在哪裡 mysql hdfs,hive上的元資料一般儲存在關係型資料庫當中