1. 程式人生 > >大資料基礎面試題整理

大資料基礎面試題整理

1.分散式的三種模式

 

2.Hadoop叢集的執行模式

Hadoop的執行模式分為3種:

本地執行模式(獨立模式,單機模式),

偽分佈執行模式,

叢集執行模式(完全分散式模式)

偽分佈模式就是在一臺伺服器上面模擬叢集環境,但僅僅是機器數量少,其通訊機制與執行過程與真正的叢集模式是一樣的,hadoop的偽分佈執行模式可以看做是叢集執行模式的特殊情況。

3.cloudera提供哪幾種安裝CDH方法

· Cloudera manager

· Tarball

· Yum

· Rpm

其中Yum及Rpm安裝可以算作一種安裝方式

4.Hadoop的模組有哪些

 

5.Zookeeper的作用

 

6.Shuffle在MapReduce指的是什麼?

 

7. resourceManager在YARN中的作用

 

8. 將打好的jar包,提交給YARA執行,請寫出命令

 

9. 在完全分散式中,將副本數設定為7,在哪個配置檔案中,如何配置

 

10. 如何確定map個數

 

11. MapReduce在hadoop中的作用

 

12. MapReduce分為哪兩個階段

 

13. Hadoop的序列化介面是什麼

 

14. 自定義的MapReduce如何向yarn提交執行

 

15. 自定義MapReduce的模型

 

16. 簡述HDFS的作用

 

17. 在HDFS的主從架構中,誰是“主”

 

18. 簡述namenode和DataNode的區別及關係

 

19. 如何將使用者hadoop家目錄下的1.log,上傳到HDFS的 /input目錄下,請寫出命令

 

20. 請回答secondaryNameNode在HDFS的作用

21. 把下面的語句用hive方式實現

 

22. Hive的特點是什麼?Hive和rdbms的異同?

 

23. metastore是什麼

 

24. Hive有哪些方式儲存資料,各有哪些特點

 

25. Hive的本質是什麼

 

====================================================================

1. 搭建偽分散式hadoop開發環境

1、Linux環境

2、Jdk安裝

3、 關閉防火牆

4、配置hadoop

5、格式化namenode(不需要重複)

6、啟動hdfs 守護程序

7、Web 訪問介面  50070

8、配置YARN任務排程

9、啟動hdfs YARA程序

10、檢查YARN狀態

11、向YARN提交任務

2. 編寫程式碼測試HDFS API

 

3. 編寫MapReduce程式,實現wordcount的功能

 

4. 實現程式設計測試資料的統計

 

5. 搭建hadoop完全分散式簡單步驟

1、虛擬機器裝備

2、網路配置完好

3、JDK安裝

4、Ssh 配置

5、同步伺服器時間

6、Hadoop叢集配置

A:環境變數

B:hadoop檔案配置,修改

7、啟動hadoop叢集

8、Web埠訪問。

6. 編寫MR統計分省PV及髒資料

 

7. hive的安裝和使用

 

8. Hive架構,分三個部分來講解,最好通過畫圖理解

 

9. 為什麼說hive是hadoop的資料倉庫,從【資料儲存和分析】方面理解

 

10. Hive能做什麼,與MapReduce相比較優勢在哪(對於開發者)