大資料數倉面試流程和重點面試題
阿新 • • 發佈:2022-01-16
一、自我介紹
看簡歷+表達能力
2-3分鐘左右(學歷、參加工作、愛好、特長)
二、專案
背
三、資料倉庫
1、以數倉為中心
不要直接上來說ods、dwd、dws、ads
2、正規化建模與維度建模的方式區別
3、主題劃分是否合適
4、事實表與維度表的介紹
有多少張,哪些緩解進行度量
5、總結矩陣
6、變化的資料如何處理,拉鍊表還是?
7、不常變化的資料,如何處理
四、資料治理
1、源資料包括哪些種類
hive、spark、kafka源資料
分幾類
2、指標體系的建設與維護
公司某個業務的指標
3、OLAP-ClickHouse(惡樓跑)
存在哪些問題
提升了多少速度
4、spark-數倉中的一部分
底層瞭解
寬窄依賴
shuffle
job
rdd
spark開發,資料處理(非結構化資料清洗轉換為關係型資料)
5、開發
hive的資料傾斜
hive調優過程
小檔案、OOM處理(舉例子,解決的流程☆,之前的視訊有講到)
mr
多表join定位處理
開窗函式的場景和使用,考察SQL的完整程度
本文來自部落格園,作者:哥們要飛,轉載請註明原文連結:https://www.cnblogs.com/liujinhui/p/15808235.html