1. 程式人生 > >資料倉庫建模速記

資料倉庫建模速記

整理資料倉庫建模相關知識點

1.緩慢變化維

  a) 新增一個Old列,僅能記錄最近兩次資訊
  b) 直接覆蓋
  c) 新增BeginDate EndDate  Version IsActive 
  d) 在C基礎上,新增代理鍵
2.增量處理
a)全表掃描對比,效能差
        b)根據源表的操作時間欄位.需源系統支援.
        c)分析資料庫操作日誌,工作量大,難度高
3,效能優化
a)優化SQL
b)建立索引,where join的欄位都要新增,外來鍵欄位儘量採用INT
c)物化檢視
d)點陣圖連線索引
e)分割槽
  f)平行計算 & 分散式
g)提前預處理 --需求變化頻率不高情況下
4.代理鍵,與業務無關的Number型別欄位,一般存在於維度表中.
優點:與事實表關聯速度快
業務內容變化,不會對其有影響
處理緩慢變化維
5.資料建模過程:
1.業務模型:確定客戶要什麼,確定我們有什麼
2.領域模型:確定各業務間關係,建立各個實體關係,確定主題等
3.邏輯模型:確定粒度,各主體維度,度量資訊,以及資料來源等
4.物理模型:建立資料庫模型,生成資料倉庫指令碼
6.退化維度:沒有維度表的維度,存在於事實表中,代表一定的業務含義.
例如:訂單編號,銷售單號等
優點:方便事實表一些分組操作; 保留業務,方便資料質量檢驗
7.關於資料質量:
1.源系統 加強約束和校驗,上升到全員高度,需最高層大力支援
2.ETL 過程中校驗
3.ETL 記錄錯誤異常事實表,方便分析統計
4.ETL 記錄行級的審計維度表
5.自動預警