1. 程式人生 > >每天10分鐘——10.18

每天10分鐘——10.18

1.hdfs 偽分散式哪三個程序,簡寫

NN	DN	SNN	

2.yarn偽分散式哪兩個程序,簡寫

RM		NM

3.簡述 nn做什麼的?

管理檔名稱,維護目錄樹,定期接受DN的心跳資訊

4.簡述 snn是做什麼的那幅圖,是否能夠描述清楚?

定期去NN上的fsimage和editlog合併成新的fsimage並且返回給NN

5.一個檔案130M,block設為128M,系統設定3副本,請問多少塊,多少儲存

6塊	256M

6.拓展題: 所以,假如都是5M 10M 20M這些小檔案,我們是不是為了避免nn節點記憶體的壓力,要不合並這些小檔案,要不就將冷資料遷移到比如oss,s3儲存上

是的,大量儲存小檔案會讓NN節點壓力過大,所以需要合併

7.假如讓你找配置引數,你會在官網找嗎

看是配置env.sh還是.xml檔案之後再去官網的文件裡找

8.簡述你們對shuffle的理解

洗牌,將相同key值放在一起

9.簡述什麼是資料本地化

NN 和 DN同一節點

10.簡述mr提交到yarn上

client將作業提交到yarn上,yarn的NM分配contanier和開啟ApplicationMaster
ApplicationMaster申請資源並且分配到相應的container,同時監控他們

11.hive資料分為 元資料和資料,那麼你們課程中,分別儲存在哪裡

元資料在關係型資料庫中,資料在hdfs上