1. 程式人生 > >大資料面試(HR電話瞭解)

大資料面試(HR電話瞭解)

1什麼是HA叢集?

所謂HA,即高可用(7*24小時不中斷服務)

HA叢集是hadoop高可用叢集,即有兩個namenode,一個active,一個stanby,active的name掛掉之後,stanby的namenode就會切換成active,

最關鍵的是消除單節點故障

namenode協調工作的要點:

   A、元資料管理方式需要改變:

    記憶體中各自儲存一份元資料

    Edits日誌只能有一份,只有Active狀態的namenode節點可以做寫操作

    兩個namenode都可以讀取edits

    共享的edits放在一個共享儲存中管理(qjournal和NFS兩個主流實現)

   B、需要一個狀態管理功能模組

    實現了一個zkfailover,為一個守護程序,常駐在每一個namenode所在的節點

    每一個zkfailover負責監控自己所在namenode節點,利用zk進行狀態標識

    當需要進行狀態切換時,由zkfailover來負責切換

    切換時需要防止brain split現象的發生(腦裂)

2HA的兩個namenode之間是怎麼進行切換的?

    實現了一個zkfailover,為一個守護程序,常駐在每一個namenode所在的節點

    每一個zkfailover負責監控自己所在namenode節點,利用zk進行狀態標識

    當需要進行狀態切換時,由zkfailover來負責切換

    切換時需要防止brain split現象的發生(腦裂)

3.yarn包括了什麼?

YARN 分層結構的本質是 ResourceManager。這個實體控制整個叢集並管理應用程式向基礎計算資源的分配。

ResourceManager 還與 ApplicationMaster 一起分配資源,與 NodeManager 一起啟動和監視它們的基礎應用程式。

ApplicationMaster 管理一個在 YARN 內執行的應用程式的每個例項。ApplicationMaster 負責協調來自 ResourceManager 的資源,

並通過 NodeManager 監視容器的執行和資源使用 (CPU、記憶體等的資源分配)。

NodeManager 管理一個 YARN 叢集中的每個節點。NodeManager 提供針對叢集中每個節點的服務,從監督對一個容器的終生管理到監視資源和跟蹤節點健康。

4.hive的sql語句你掌握多少?

5.hive的資料儲存在哪裡?

Hive的資料分為表資料(資料來源)資料,

表資料是Hive中表格(table)具有的資料;

而元資料是用來儲存表的名字,表的列和分割槽及其屬性,表的屬性(是否為外部表等),表的資料所在目錄等

資料來源儲存在HDFS上,元資料存在在mysql中

6.hive的資料可以匯出到哪裡?

1.匯出到本地檔案系統。

2.匯出到HDFS中;

3.匯出到Hive的另外一個表中。

4.hive與hbase整合,把資料匯入hbase

5.將資料打出到HDFS,在通過sqoop將資料匯出到mysql

7.flume是幹嘛的?

flume的三大元件:Sources(輸入埠)Channle(管道或傳輸頻道)Sink(輸出埠)

還可以配合攔截器

flume負責採集資料,如日誌檔案,普通檔案等

把資料採集到控制檯,HDFS,hive,hbase等

8.設定了幾個副本?

沒有設定,預設為3個