大數據面試題
阿新 • • 發佈:2018-09-22
api 請求 不同的 提交 框架 心跳 生命 只需要 file
1、介紹一下Hadoop的框架
存儲hdfs,計算框架MapReduce,資源管理Yarn
2、簡單說下HDFS的讀寫流程
a、客戶端發送請求,調用DistributedFileSystem API的open方法發送請求到Namenode,獲取block的位置信息,因為真正的block是存在Datanode節點上的,而
namenode裏存放block位置信息的元數據。
b、Namenode返回所有block的位置信息,並將這些信息返回給客戶端。
c、客戶端拿到block的位置信息後調用FSDataInputStream API的read方法並行的讀取block信息,block默認是3個副本,所以每個block只需要取一個副本就可以了。
d、datanode返回給客戶端。
3、介紹下HDFS中實現數據容錯的方式/機制
a、每個數據塊3個副本,分布在不同的機架上
b、DataNode定期向NameNode發送心跳
4、介紹一下Yarn的框架結構
5、介紹一下Yarn框架中的Job調度方式
6、說明一下MapReduce的框架結構
7、簡單說明一下MapReduce中的Shuffle過程
8、MapReduce的容錯機制是如何實現的
9、MapReduce的二次排序機制是什麽?
10、HDFS啟動流程
11、MapReduce的生命周期/MapReduce的提交執行流程
大數據面試題