1. 程式人生 > 其它 >數倉基礎知識筆記

數倉基礎知識筆記

一、模型設計要求(三個正規化):

  • 第一正規化:欄位都是單一屬性,不可再分。
  • 第二正規化:表中不存在非關鍵欄位對任一候選關鍵欄位的部分函式依賴。所有屬性都依賴主鍵。
  • 第三正規化:表中不存在非關鍵欄位對任一候選關鍵欄位的傳遞函式依賴。

二、模型設計過程:

  1. 概念模型:抽象業務,劃分主題域。一般劃分為:客戶、服務、服務使用、賬務、結算、資源、客服、營銷
    • 主題域的設計方法:從業務上高度抽象歸納,將資料劃分為不同的主題域。

  1. 邏輯模型:細化主題。定義實體關係和屬性,定義表作用、約束、欄位、ER圖、業務驅動建模
  2. 物理模型:建表、索引,為了滿足高效能的要求,可以增加冗餘、隱藏表之間的約束等反第三正規化操作。

三、模型的型別:

  • 星型模型:又稱維度建模,將商業維度融合到資料模型中,為了分析方便,將同一維度的不同層次的維度都融合到事實表中。查詢效能好,為了提高效能,可以允許違反第三正規化,適當冗餘,隱藏表之間約束。
  • 雪花模型:又稱3NF模型。
  • 兩種模型的共性是:都是由一個事實表和一組維度表組成。

四、資料處理過程:

中間層是數倉最重要的一層,決定了數倉的效能:

  1. 資料彙總。將底層資料按維度進行小顆粒度彙總
  2. 資訊聚合。將多張表的資訊聚合在一個表中,提高查詢效能