1. 程式人生 > >數據倉庫基礎知識

數據倉庫基礎知識

混亂 操作 平臺 而是 增加 設定 由於 過程 上進

數據倉庫四個主要特征:

1. 主題性

數據倉庫是一般從用戶實際需求出發,將不同平臺的數據源按設定主題進行劃分整合,與傳統的面向事務的操作型數據庫不同,具有較高的抽象性。面向主題的數據組織方式,就是在較高層次對分析對象數據的一個完整、統一並一致的描述,能完整及統一地刻畫各個分析對象所涉及的有關企業的各項數據,以及數據之間的聯系。

2.集成性

數據倉庫中存儲的數據大部分來源於傳統的數據庫,但並不是將原有數據簡單的直接導入,而是需要進行預處理。這是因為事務型數據中的數據一般都是有噪聲的、不完整的和數據形式不統一的。這些“臟數據”的直接導入將對在數據倉庫基礎上進行的數據挖掘造成混亂。“臟數據”在進入數據倉庫之前必須經過抽取、清洗、轉換才能生成從面向事務轉而面向主題的數據集合。數據集成是數據倉庫建設中最重要,也是最為復雜的一步。

3.穩定性

數據倉庫中的數據主要為決策者分析提供數據依據。決策依據的數據是不允許進行修改的。即數據保存到數據倉庫後,用戶僅能通過分析工具進行查詢和分析,而不能修改。數據的更新升級主要都在數據集成環節完成,過期的數據將在數據倉庫中直接篩除。

4.動態性

數據倉庫數據會隨時間變化而定期更新,不可更新是針對應用而言,即用戶分析處理時不更新數據。每隔一段固定的時間間隔後,抽取運行數據庫系統中產生的數據,轉換後集成到數據倉庫中。隨著時間的變化,數據以更高的綜合層次被不斷綜合,以適應趨勢分析的要求。當數據超過數據倉庫的存儲期限,或對分析無用時,從數據倉庫中刪除這些數據。關於數據倉庫的結構和維護信息保存在數據倉庫的元數據(Metadata)中,數據倉庫維護工作由系統根據其中的定義自動進行或由系統管理員定期維護。

數據倉庫的幾種數據模型:

1. 星型模型

星型模型是數據集市維度建模中推薦的建模方法。星型模型是以事實表為中心,所有的維度表直接連接在事實表上,像星星一樣。星型模型的特點是數據組織直觀,執行效率高。因為在數據集市的建設過程中,數據經過了預處理,比如按照維度進行了匯總,排序等等,數據量減少,執行的效率就比較高。

2. 雪花模型

雪花模型也是維度建模中的一種選擇。雪花模型的維度表可以擁有其他維度表的,雖然這種模型相比星型模型更規範一些,但是由於這種模型不太容易理解,維護成本比較高,而且性能方面需要關聯多層維表,性能也比星型模型要低。所以一般不是很常用。

3. 範式建模

第三範式建模是在數據庫建模中使用的建模方法,特點是體系化,擴展性好,避免冗余,避免更新異常。所以,在數據倉庫的EDW層建模中,我們也提倡使用第三範式建模。但是數據倉庫的集成和反映歷史變化的特征意味著數據量非常之大,表和表之間的關聯效率比較低,所以有些時候完全規範的範式建模並不是最好的選擇,通常我們會選擇非規範化處理,增加一些冗余的字段來避免表之間關聯的次數,這樣會節約大量的時間。

4. 星座模型

星座模型是星型模型延伸而來,星型模型是基於一張事實表的,而星座模型是基於多張事實表的,而且共享維度信息。 通過構建一致性維度,來建設星座模型,也是很好的選擇。比如同一主題的細節表和匯總表共享維度,不同主題的事實表,可以通過在維度上互相補充來生成可以共享的維度。

數據倉庫基礎知識