數倉基礎知識筆記
阿新 • • 發佈:2021-08-19
一、模型設計要求(三個正規化):
- 第一正規化:欄位都是單一屬性,不可再分。
- 第二正規化:表中不存在非關鍵欄位對任一候選關鍵欄位的部分函式依賴。所有屬性都依賴主鍵。
- 第三正規化:表中不存在非關鍵欄位對任一候選關鍵欄位的傳遞函式依賴。
二、模型設計過程:
- 概念模型:抽象業務,劃分主題域。一般劃分為:客戶、服務、服務使用、賬務、結算、資源、客服、營銷
- 主題域的設計方法:從業務上高度抽象歸納,將資料劃分為不同的主題域。
- 邏輯模型:細化主題。定義實體關係和屬性,定義表作用、約束、欄位、ER圖、業務驅動建模
- 物理模型:建表、索引,為了滿足高效能的要求,可以增加冗餘、隱藏表之間的約束等反第三正規化操作。
三、模型的型別:
- 星型模型:又稱維度建模,將商業維度融合到資料模型中,為了分析方便,將同一維度的不同層次的維度都融合到事實表中。查詢效能好,為了提高效能,可以允許違反第三正規化,適當冗餘,隱藏表之間約束。
- 雪花模型:又稱3NF模型。
- 兩種模型的共性是:都是由一個事實表和一組維度表組成。
四、資料處理過程:
中間層是數倉最重要的一層,決定了數倉的效能:
- 資料彙總。將底層資料按維度進行小顆粒度彙總
- 資訊聚合。將多張表的資訊聚合在一個表中,提高查詢效能