每天10分鐘——10.18
阿新 • • 發佈:2018-12-17
1.hdfs 偽分散式哪三個程序,簡寫
NN DN SNN
2.yarn偽分散式哪兩個程序,簡寫
RM NM
3.簡述 nn做什麼的?
管理檔名稱,維護目錄樹,定期接受DN的心跳資訊
4.簡述 snn是做什麼的那幅圖,是否能夠描述清楚?
定期去NN上的fsimage和editlog合併成新的fsimage並且返回給NN
5.一個檔案130M,block設為128M,系統設定3副本,請問多少塊,多少儲存
6塊 256M
6.拓展題: 所以,假如都是5M 10M 20M這些小檔案,我們是不是為了避免nn節點記憶體的壓力,要不合並這些小檔案,要不就將冷資料遷移到比如oss,s3儲存上
是的,大量儲存小檔案會讓NN節點壓力過大,所以需要合併
7.假如讓你找配置引數,你會在官網找嗎
看是配置env.sh還是.xml檔案之後再去官網的文件裡找
8.簡述你們對shuffle的理解
洗牌,將相同key值放在一起
9.簡述什麼是資料本地化
NN 和 DN同一節點
10.簡述mr提交到yarn上
client將作業提交到yarn上,yarn的NM分配contanier和開啟ApplicationMaster
ApplicationMaster申請資源並且分配到相應的container,同時監控他們
11.hive資料分為 元資料和資料,那麼你們課程中,分別儲存在哪裡
元資料在關係型資料庫中,資料在hdfs上