資料倉庫的架構以及資料分層
資料倉庫分層的原因
1通過資料預處理提高效率,因為預處理,所以會存在冗餘資料
2如果不分層而業務系統的業務規則發生變化,就會影響整個資料清洗過程,工作量巨大
3通過分層管理來實現分步完成工作,這樣每一層的處理邏輯就簡單了
標準的資料倉庫分層:ods(臨時儲存層),pdw(資料倉庫層),mid(資料集市層),app(應用層)
ods:歷史儲存層,它和源系統資料是同構的,而且這一層資料粒度是最細的,這層的表分為兩種,一種是儲存當前需要載入的資料,一種是用於儲存處理完後的資料。
pdw:資料倉庫層,它的資料是乾淨的資料,是一致的準確的,也就是清洗後的資料,它的資料一般都遵循資料庫第三正規化,資料粒度和ods的粒度相同,它會儲存bi系統中所有歷史資料
mid:資料集市層,它是面向主題組織資料的,通常是星狀和雪花狀資料,從資料粒度將,它是輕度彙總級別的資料,已經不存在明細的資料了,從廣度來說,它包含了所有業務數量。從分析角度講,大概就是近幾年
app:應用層,資料粒度高度彙總,倒不一定涵蓋所有業務資料,只是mid層資料的一個子集。
資料倉庫的目的是構建面向分析的整合化資料環境,為企業提供決策支援。資料倉庫的context也可以理解為:資料來源,資料倉庫,資料應用
資料倉庫可以理解為中間整合化資料管理的一個平臺
etl(抽取extra,轉化transfer,裝載load)是資料倉庫的流水線,也可以認為是資料倉庫的血液。
資料倉庫的儲存並不需要儲存所有原始資料,因為比如你儲存冗長的文字資料完全沒必要,但需要儲存細節資料,因為需求是多變的,而且資料倉庫是匯入資料必須經過整理和轉換使它面向主題,因為前臺資料庫的資料是基於oltp操作組織優化的,這些可能不適合做分析,面向主題的組織形式才有利於分析。
多維資料模型就是說可以多維度交叉查詢和細分,應用一般都是基於聯機分析處理(online analytical process OLAP),面向特定需求群體的資料集市會基於多位資料模型構建
而報表展示就是將聚合資料和多維分析資料展示到報表,提供簡單和直觀的資料。
元資料,也叫解釋性資料,或者資料字典,會記錄資料倉庫中模型的定義,各層級之間的對映關係,監控資料倉庫的資料狀態和etl的任務執行狀態。一般通過元資料資料庫來統一儲存和管理元資料。