1. 程式人生 > >大資料hive面試題

大資料hive面試題

有資料傾斜的時候進行負載均衡,當選項設定為true,生成的查詢計劃會有兩個MR Job。第一個MR Job中,Map的輸出結果集合會隨機分佈到Reduce中,每個Reduce做部分聚合操作,並輸出結果,這樣處理的結果是相同Group By Key有可能被分發到不同的Reduce中,從而達到負載均衡的目的;第二個MR Job在根據預處理的資料結果按照 Group By Key 分佈到Reduce中(這個過程可以保證相同的 Group By Key 被分佈到同一個Reduce中),最後完成最終的聚合操作。