ETL架構師面試題(中文)
本部分的題目來自Kimball的ETL Toolkit著作,原著未直接給出答案。這裡的中文題目和答案是我參考其原著按自己的理解整理而來的,僅供參考。對於其中不確切的地方,歡迎大家一起溝通。有興趣的朋友可以直接閱讀原著。
分析
1.什麼是邏輯資料對映?它對ETL專案組的作用是什麼?
2.在資料倉庫專案中,資料探索階段的主要目的是什麼?
3.如何確定起始來源資料?
架構
4.在ETL過程中四個基本的過程分別是什麼?
5.在資料準備區中允許使用的資料結構有哪些?各有什麼優缺點?
6.簡述ETL過程中哪個步驟應該出於安全的考慮將資料寫到磁碟上?
抽取
7.簡述異構資料來源中的資料抽取技術。
8.從ERP源系統中抽取資料最好的方法是什麼?
9.簡述直接連線資料庫和使用ODBC連線資料庫進行通訊的優缺點。
10.簡述出三種變化資料捕獲技術及其優缺點。
資料質量
11.資料質量檢查的四大類是什麼?為每類提供一種實現技術。
12.簡述應該在ETL的哪個步驟來實現概況分析?
13.ETL專案中的資料質量部分核心的交付物有那些?
14.如何來量化資料倉庫中的資料質量?
建立對映
15.什麼是代理鍵?簡述代理鍵替換管道如何工作。
16.為什麼在ETL的過程中需要對日期進行特殊處理?
17.簡述對一致性維度的三種基本的交付步驟。
18.簡述三種基本事實表,並說明ETL的過程中如何處理它們。
19.簡述橋接表是如何將維度表和事實表進行關聯的?
20.遲到的資料對事實表和維度表有什麼影響?怎樣來處理這個問題?
元資料
21.舉例說明各種ETL過程中的元資料。
22.簡述獲取操作型元資料的方法。
23.簡述共享業務元資料和技術元資料的方法。
優化/操作
24.簡述資料倉庫中的表的基本型別,以及為了保證引用完整性該以什麼樣的順序對它們進行載入。
25.簡述ETL技術支援工作的四個級別的特點。
26.如果ETL程序執行較慢,需要分哪幾步去找到ETL系統的瓶頸問題。
27.簡述如何評估大型ETL資料載入時間。
實時ETL
28.簡述在架構實時ETL時的可以選擇的架構部件。
29.簡述幾種不同的實時ETL實現方法以及它們的適用範圍。
30.簡述實時ETL的一些難點及其實現方法。