1. 程式人生 > >大數據面試題

大數據面試題

api 請求 不同的 提交 框架 心跳 生命 只需要 file

1、介紹一下Hadoop的框架

存儲hdfs,計算框架MapReduce,資源管理Yarn

2、簡單說下HDFS的讀寫流程

a、客戶端發送請求,調用DistributedFileSystem API的open方法發送請求到Namenode,獲取block的位置信息,因為真正的block是存在Datanode節點上的,而

  namenode裏存放block位置信息的元數據。

b、Namenode返回所有block的位置信息,並將這些信息返回給客戶端。

c、客戶端拿到block的位置信息後調用FSDataInputStream API的read方法並行的讀取block信息,block默認是3個副本,所以每個block只需要取一個副本就可以了。

d、datanode返回給客戶端。

3、介紹下HDFS中實現數據容錯的方式/機制

a、每個數據塊3個副本,分布在不同的機架上

b、DataNode定期向NameNode發送心跳

4、介紹一下Yarn的框架結構

5、介紹一下Yarn框架中的Job調度方式

6、說明一下MapReduce的框架結構

7、簡單說明一下MapReduce中的Shuffle過程

8、MapReduce的容錯機制是如何實現的

9、MapReduce的二次排序機制是什麽?

10、HDFS啟動流程

11、MapReduce的生命周期/MapReduce的提交執行流程

大數據面試題