開天創世大資料面試題
阿新 • • 發佈:2020-10-16
開天創世
(1)畫圖講解spark工作流程,以及在叢集上和各個角色的對應關係
(2)spark哪些運算元操作涉及到shuffle
(3)spark效能優化主要有哪些手段
(4)map-reduce程式執行的時候會有什麼比較常見的問題
(5)hadoop和spark的shuffle過程,你怎麼在程式設計的時候注意避免一些效能問題
(6)hadoop的TextInputFormat作用是什麼,如何自定義實現
(7)有哪些資料傾斜,怎麼解決
(8)有訂單資料表server_id(服ID)、role_id(角色ID)/money(充值金額)統計每個服中累計充值金額排名前3的角色ID與總充值金額分別使用HIVE SQL、Spark運算元實現