1. 程式人生 > >對資料倉庫作一番理解

對資料倉庫作一番理解

目前,資料倉庫一詞尚沒有一個統一的定義,著名的資料倉庫專家W.H.Inmon在其著作《Building the Data Warehouse》一書中給予如下描述:資料倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、整合的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的資料集合,用於支援管理決策。對於資料倉庫的概念我們可以從兩個層次予以理解,首先,資料倉庫用於支援決策,面向分析型資料處理,它不同於企業現有的操作型資料庫;其次,資料倉庫是對多個異構的資料來源有效整合,整合後按照主題進行了重組,幷包含歷史資料,而且存放在資料倉庫中的資料一般不再修改。

    根據資料倉庫概念的含義,資料倉庫擁有以下四個特點:
     1、面向主題。操作型資料庫的資料組織面向事務處理任務,各個業務系統之間各自分離,而資料倉庫中的資料是按照一定的主題域進行組織。主題是一個抽象的概念,是指使用者使用資料倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型資訊系統相關。

     2、整合的。面向事務處理的操作型資料庫通常與某些特定的應用相關,資料庫之間相互獨立,並且往往是異構的。而資料倉庫中的資料是在對原有分散的資料庫資料抽取、清理的基礎上經過系統加工、彙總和整理得到的,必須消除源資料中的不一致性,以保證資料倉庫內的資訊是關於整個企業的一致的全域性資訊。 

     3、相對穩定的。操作型資料庫中的資料通常實時更新,資料根據需要及時發生變化。資料倉庫的資料主要供企業決策分析之用,所涉及的資料操作主要是資料查詢,一旦某個資料進入資料倉庫以後,一般情況下將被長期保留,也就是資料倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、重新整理。

    
 4、反映歷史變化。操作型資料庫主要關心當前某一個時間段內的資料,而資料倉庫中的資料通常包含歷史資訊,系統記錄了企業從過去某一時點(如開始應用資料倉庫的時點)到目前的各個階段的資訊,通過這些資訊,可以對企業的發展歷程和未來趨勢做出定量分析和預測。
企業資料倉庫的建設,是以現有企業業務系統和大量業務資料的積累為基礎。資料倉庫不是靜態的概念,只有把資訊及時交給需要這些資訊的使用者,供他們做出改善其業務經營的決策,資訊才能發揮作用,資訊才有意義。而把資訊加以整理歸納和重組,並及時提供給相應的管理決策人員,是資料倉庫的根本任務。因此,從產業界的角度看,資料倉庫建設是一個工程,是一個過程。
整個資料倉庫系統是一個包含四個層次的體系結構,具體由下圖表示。 



·資料來源:是資料倉庫系統的基礎,是整個系統的資料來源泉。通常包括企業內部資訊和外部資訊。內部資訊包括存放於RDBMS中的各種業務處理資料和各類文件資料。外部資訊包括各類法律法規、市場資訊和競爭對手的資訊等等;

·資料的儲存與管理:是整個資料倉庫系統的核心。資料倉庫的真正關鍵是資料的儲存和管理。資料倉庫的組織管理方式決定了它有別於傳統資料庫,同時也決定了其對外部資料的表現形式。要決定採用什麼產品和技術來建立資料倉庫的核心,則需要從資料倉庫的技術特點著手分析。針對現有各業務系統的資料,進行抽取、清理,並有效整合,按照主題進行組織。資料倉庫按照資料的覆蓋範圍可以分為企業級資料倉庫和部門級資料倉庫(通常稱為資料集市)。 

·OLAP伺服器:對分析需要的資料進行有效整合,按多維模型予以組織,以便進行多角度、多層次的分析,並發現趨勢。其具體實現可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本資料和聚合資料均存放在RDBMS之中;MOLAP基本資料和聚合資料均存放於多維資料庫中;HOLAP基本資料存放於RDBMS之中,聚合資料存放於多維資料庫中。

·前端工具:主要包括各種報表工具、查詢工具、資料分析工具、資料探勘工具以及各種基於資料倉庫或資料集市的應用開發工具。其中資料分析工具主要針對OLAP伺服器,報表工具、資料探勘工具主要針對資料倉庫。