1. 程式人生 > >對於資料倉庫你瞭解多少?

對於資料倉庫你瞭解多少?

今天我們要說的是主題是——資料倉庫,注意是倉庫,不是資料庫哦。

首先我們要知道,資料倉庫的建立為行業高層主管門系統的地組織、理解和使用他們的資料進行了戰略決策提供了體系結構和工具。在當今充滿競爭和快速發展的世界,資料倉庫系統是一種有價值的工具。在過去的幾年中,許多公司花費數百萬美元建立企業範圍的資料倉庫。許多人都感到隨著工業競爭的加劇,資料倉庫成了必備的最新營銷武器——一種通過更多的瞭解客戶需求而留住客戶的途徑。

timg (18)

“那麼,到底是什麼是資料倉庫?”資料倉庫已被多種方式定義,很難給出一種嚴格的定義。不嚴格的講,資料倉庫是一種資料庫,它與組織機構的操作資料庫分別維護。資料倉庫系統允許將各種應用系統整合在一起,為統一的歷史資料分析提供堅實的平臺,對資訊處理提供支援。按照一位資料倉庫系統構造方面的領頭設計師William H.Inmon的說法,“資料庫是一個面向主題的、整合的、時變的和非易失的資料集合,支援管理部門的決策過程”[Inm96]。

這個簡短而又全面的定義指出了資料倉庫的主要特徵。

四個關鍵詞,面向主題的、整合的、時變的、非易失的,將資料倉庫與其他資料儲存系統相區別。讓我們進一步看看這些關鍵特徵。

面向主題的:資料倉庫圍繞一些主題,如顧客、供應商、產品和銷售來組織。資料倉庫關注決策者的資料建模與分析,而不是組織機構的日常操作和事務處理。因此,資料倉庫排除對於決策支援過程無用的資料,提供特定主題的簡明檢視。

整合的:通常,構造資料倉庫是將多個異構資料來源,如關係資料庫、一般檔案和聯機事務記錄整合在一起。使用資料清理和資料整合技術確保命名約定、編碼結構、屬性度量等的一致性。

時變的:資料儲存從歷史的角度提供資訊,資料倉庫中的關鍵結構都隱式或顯式地包含時間元素。

非易失的:資料倉庫總是物理地分別存放資料,這些資料來源於操作環境下的應用資料。由於這種分離,資料倉庫不需要事務處理,恢復和併發控制機制。通常,它只需要兩種資料訪問操作:資料的初始化裝入和資料訪問。

概言之,資料倉庫式語義上一致的資料儲存,它充當決策支援資料模型的物理實現,並存放企業戰略決策所需要的資訊。資料倉庫也常常看作一種體系結構,通過將異構資料來源中的資料整合在一起而構造,支援結構化和/或專門的查詢、分析報告和決策制定。

圖片1

根據上面的討論,我們把建立資料倉庫看作構造和使用資料倉庫的過程。資料倉庫的構造需要資料整合、資料清理和資料統一。利用資料倉庫常常需要一些決策支援技術。這使得“知識工人”能夠使用資料倉庫快捷、方便的得到資料的總體檢視,根據資料倉庫中的資料資訊做出準確的決策。

由於大多數人都熟悉商用關係資料庫系統,將資料倉庫與之比較,就容易理解什麼式資料倉庫。

聯機操作資料庫系統的主要任務是執行聯機事務和查詢處理。這種系統稱作聯機事務處理(OLTP)系統。它們涵蓋了組織機構的大部分日常操作,如購物、庫存、製造、銀行、工資、註冊、記賬等。另一方面,資料倉庫系統在資料分析和決策方面為使用者或知識工人提供服務。這種系統可以用不同的格式組織和提供資料,以滿足不同使用者的各種需求。這種系統稱作連線分析處理(OLAP)系統。

OLTP和OLAP的主要區別概述如下。

使用者和系統的面向性:OLTP系統是面向客戶的,用於辦事員、客戶和資訊科技專業人員的事務和查詢處理。OLAP系統是面向市場的,用於知識工人的資料分析。

timg (15)

資料內容:OLTP系統管理當前資料。通常,這種資料太瑣碎,難以用於決策。OLAP系統管理大量歷史資料,提供彙總和聚集機制。並在不同的粒度級別上儲存和管理資訊。這些特點使得資料更容易用於見多識廣的決策。

資料庫設計:通常,OLTP系統採用實體-聯絡(ER)資料模型和麵嚮應用資料庫設計。而OLAP系統通常採用星形或雪花模型和麵向主題的資料庫設計。

檢視:OLTP系統主要關注企業或部門內部的當前資料,而不涉及歷史資料或不同的組織的資料。相比之下,由於組織的變化,OLAP系統常常跨越資料庫模式的多個版本。OLAP系統還處理來自不同組織的資訊,有多個數據儲存整合的資訊。由於資料量巨大,OLAP資料存放在多個儲存介質上。

訪問模式:OLTP系統的訪問模式主要由短的原子事務組成。這種系統需要併發控制和恢復機制。然而,對OLAP系統的訪問大部分是隻讀操作,儘管許多可能是複雜的查詢。

OLTP和OLAP的其它區別包括資料大小、操作的頻繁程度、效能度量等。

好了,今天的科普就說到這裡了,你懂了嗎?

timg (19)