基於阿里雲DATAWORKS整理資料模型概念
文章目錄
引子
年底這兩個月阿里雲的dataworks進行了全面升級,很多細節有了不小的變化,感覺結構更加清晰了。
例如建表這個頁面:
現在可以在這裡配置資料倉庫表的層級,主題層級比較好理解,就是主題表的分類。而下邊的物理層級應該就是指ODS,DM,DW這類分級,物理分類沒有太理解,會在後邊進行補充。
下面是基於這個管理介面補充一下資料模型的相關知識。
資料模型
資料模型是指實體、屬性、實體之間的關係對業務概念和邏輯規則進行統一的定義,命名和編碼,主要描述企業的資訊需求和業務規則,是業務人員和開發人員溝通的語言,是資料倉庫設計工作的第一步。資料模型可以劃分為概念模型、邏輯模型、物理模型。
概念模型
從定義上來說,概念模型是最高層次的資料模型,反映了資料倉庫的主要主題和重要業務之間的關係。一般來說,在進行資料倉庫系統設計和開發之前,設計開發人員和業務人員已經對概念模型達成了共識,因為概念模型反映的是核心的業務問題。概念模型設計步驟如下:
從業務需求中提取重要的業務資料主題,包括對業務資料主題的詳細解釋;
從業務資料主題的基礎上進行資料主題域的劃分,包括對資料主題域的詳細解釋;
劃分主題域概念模型:根據資料主題域的劃分,細化內部的組織結構和業務關係。
概念模型建模的流程大致可以劃分成如下幾個部分:通過對業務系統的詳細說明,進行資料的梳理,列出資料主題詳細的清單,並對每個資料主題都作出詳細的解釋,然後經過歸納、分類,整理成各個資料主題域,列出每個資料主題域包含哪些部分,並對每個資料主題域作出詳細解釋,最後劃分成主題域概念模型。
邏輯模型
從定義上講,邏輯模型是以概念模型為基礎,對概念模型的進一步細化、分解。邏輯模型通過實體和實體之間的關係描述業務的需求和系統實現的技術領域,是業務需求人員和技術人員溝通的橋樑和平臺。 邏輯模型的設計是資料倉庫實施中最重要的一步,因為他直接反應了業務部門的實際需求和業務規則,同時對物理模型的設計和實現具有指導作用。他的特點就是通過實體和實體之間的關係勾勒出整個企業的資料藍圖和規則。 概念模型的主題域一般是從企業現有的資訊系統和行業自身業務活動彙總的來的業務模型主題域。而邏輯模型除了在概念模型的基礎上豐富和細化主題域,並且確定每個主題域包含哪些主題外,還需要:
分析需求,列出需求分析的主題,需求目標、維度指標、維度層次、分析的指標、分析的方法、資料的來源、關注的物件等。
選擇使用者感興趣的資料,通過業務需求將需要分析的指標分離抽取出來,轉化成邏輯模型需要的實體。
在實體中需要增加時間戳屬性,因為實體中需要儲存哥哥階段的歷史資料。通常情況下,如果實體為同一編碼,則不需要增加時間戳屬性。
需要考慮粒度層次的劃分。資料倉庫的粒度層次劃分直接影響了資料倉庫模型的設計,通常細粒度的資料模型直接從企業模型選取實體作為邏輯模型的實體,而粗粒度的資料模型需要經過彙總計算得到相應的實體。粒度決定了企業資料倉庫的實現方式、效能、靈活性和資料倉庫的資料量。
在粒度層次劃分的基礎上,還需要進行關係模式的定義,形成各個實體、實體屬性、實體之間的關係等內容。同時在邏輯模型框架的基礎上對實體的中英文名稱、屬性、屬性的值域進行明確、完善和細化,真實反映業務邏輯關係和業務規則。
物理模型
在邏輯模型的基礎上,為應用生產環境選取一個合適的物理結構的過程,包括合適的儲存結構和儲存方法,稱作物理模型的設計過程。邏輯模型轉變為物理模型包括以下幾個步驟:
- 實體名(Entity)變為表名(table)
- 屬性名(attribute)轉換為列名(column),確定列的屬性(Property)
- 物理模型必須對列的屬性進行明確的定義,包括:列名、資料型別
- 物理模型確定後,還可以進一步確定資料存放位置和儲存空間的分配。
資料倉庫資料模型設計順序
- 概念模型設計(業務模型):界定系統邊界;確定主要的主題域及其內容;
- 邏輯模型設計:維度建模方法(事實表、維度表);以星型和雪花型來組織資料;
- 物理模型設計:將資料倉庫的邏輯模型物理化到資料庫的過程;
概念模型、邏輯模型和物理模型的區別
- 概念模型設計(業務模型):
- 最高層次的資料模型
- 定義重要的業務概念和關係
- 包含核心的資料主題和主題間的業務關係
- 邏輯模型設計:
- 概念模型的進一步細化
- 一般遵循第三正規化
- 描述實體、屬性及其關係
- 物理模型設計:
- 描述模型實體的細節
- 對列的屬性進行明確的定義