1. 程式人生 > >資料倉庫的定義、特徵、產生和發展、現狀和趨勢

資料倉庫的定義、特徵、產生和發展、現狀和趨勢

資料倉庫綜述 


一、資料的倉庫的產生和發展 
資料倉庫的出現和發展是計算機應用到一定階段的必然產物。經過多年的計算機應用和市場積累,許多商業企業已儲存了大量原始資料和各種業務資料,這些資料真實地反映了商業企業主體和各種業務環境的經濟動態。然而由於缺乏集中儲存和管理,這些資料不能為本企業進行有效的統計、分析和評估提供幫助。也就是說,無法將這些資料轉化成企業有用的資訊。 

70年代出現並被廣泛應用的關係型資料庫技術為解決這一問題提供了強有力的工具。 從80年代中期開始,隨著市場競爭的加劇,商業資訊系統使用者已經不滿足於用計算機僅僅去管理日復一日的事務資料,他們更需要的是支援決策制定過程的資訊。 80年代中後期,出現了資料倉庫思想的萌芽,為資料倉庫概念的最終提出和發展打下了基礎。 
90年代初期,W.H.Inmon在其里程碑式的著作《建立資料倉庫》中提出了“資料倉庫”的概念,資料倉庫的研究和應用得到了廣泛的關注。這對處於激烈競爭中的商業企業,有著非同小可的現實意義。 

二、國內外資料倉庫的發展現狀和趨勢 
隨著各種計算機技術,如資料模型、資料庫技術和應用開發技術的不斷進步,資料倉庫技術也不斷髮展,並在實際應用中發揮了巨大的作用。IDC在1996年的一次對90年代前期進行的62個數據倉庫專案的調查結果表明:進行資料倉庫專案開發的公司在平均2.73年的時間內獲得了平均為321%的投資回報率。使用資料倉庫所產生的巨大效益同時又刺激了對資料倉庫技術的需求,資料倉庫市場正以迅猛勢頭向前發展:一方面,資料倉庫市場需求量越來越大,每年約以400%的速度擴張;另一方面,資料倉庫產品越來越成熟,生產資料倉庫工具的廠家也越來越多。資料倉庫技術及市場將向以下方向發展: 

1、並行化和可擴充套件性 
為提高資料倉庫的效能和可擴充套件能力,資料倉庫已趨向並行化。在硬體層次上,已越來越明顯地採用多處理器並行結構;在資料庫層次上,許多資料庫廠商已推出並行產品,以適應資料倉庫市場的需要。 

2、集中化
資料倉庫專案將越來越大,GartnerGroup預測:到2000年,約有70%的集中化資訊管理將依賴於資料倉庫市場。 

3、資料倉庫與Internet/Intranet的整合
隨著Internet/Intranet技術的廣泛應用和發展,資料倉庫將Internet/Intranet進行很好的整合,即前臺是Web伺服器,後臺是資料倉庫系統。 

4、資料探勘工具的成熟和廣泛使用
資料探勘工具和人工智慧代理將是以後5年推動決策支援演變過程的主要力量。 

5、通用資料庫
資料倉庫將支援多媒體、支援結構化和非結構化資料,即向通用資料庫發展,具有面向物件的能力。 

6、資料倉庫打包應用
資料倉庫將整合一些工具和應用,打包推向使用者。

二、資料倉庫的定義 
資料倉庫不是資料的簡單堆積,而是從大量的事務型資料庫中抽取資料,並將其清理、轉換為新的儲存格式,即為決策目標把資料聚合在一種特殊的格式中。公認的資料倉庫之父W.H.Inmon將其定義為:“資料倉庫是支援管理決策過程的、面向主題的、整合的、隨時間而變的、持久的資料集合。” 


三、資料倉庫的特徵 

1、資料倉庫的資料是面向主題的
與傳統資料庫面向應用進行資料組織的特點相對應,資料倉庫中的資料是面向主題進行組織的。什麼是主題呢,首先,主題是一個抽象的概念,是較高層次上企業資訊系統中的資料綜合、歸類並進行分析利用的抽象。在邏輯意義上,它是對應企業中某一巨集觀分析領域所涉及的分析物件。面向主題的資料組織方式,就是在較高層次上對分析物件的資料的一個完整、一致的描述,能完整、統一地刻劃各個分析物件所涉及的企業的各項資料,以及資料之間的聯絡。所謂較高層次是相對面嚮應用的資料組織方式而言的,是指按照主題進行資料組織的方式具有更高的資料抽象級別。 


2、資料倉庫的資料是整合的
資料倉庫的資料是從原有的分散的資料庫資料抽取來的。在前面的表1中我們已經看到,操作型資料與DSS分析型資料之間差別甚大。第一,資料倉庫的每一個主題所對應的源資料在原有的各分散資料庫中有許多重複和不一致的地方,且來源於不同的聯機系統的資料都和不同的應用邏輯捆綁在一起;第二,資料倉庫中的綜合資料不能從原有的資料庫系統直接得到。因此在資料進入資料倉庫之前,必然要經過統一與綜合,這一步是資料倉庫建設中最關鍵、最複雜的一步,所要完成的工作有: 

(1)要統一源資料中所有矛盾之處,如欄位的同名異義、異名同義、單位不統一、字長不一致,等等。 
(2)進行資料綜合和計算。資料倉庫中的資料綜合工作可以在從原有資料庫抽取資料時生成,但許多是在資料倉庫內部生成的,即進入資料倉庫以後進行綜合生成的。 


3、資料倉庫的資料是不可更新的 
資料倉庫的資料主要供企業決策分析之用,所涉及的資料操作主要是資料查詢,一般情況下並不進行修改操作。資料倉庫的資料反映的是一段相當長的時間內歷史資料的內容,是不同時點的資料庫快照的集合,以及基於這些快照進行統計、綜合和重組的匯出資料,而不是聯機處理的資料。資料庫中進行聯機處理的資料經過整合輸入到資料倉庫中,一旦資料倉庫存放的資料已經超過資料倉庫的資料儲存期限,這些資料將從當前的資料倉庫中刪去。因為資料倉庫只進行資料查詢操作,所以資料倉庫管理系統相比資料庫管理系統而言要簡單得多。資料庫管理系統中許多技術難點,如完整性保護、併發控制等等,在資料倉庫的管理中幾乎可以省去。但是由於資料倉庫的查詢資料量往往很大,所以就對資料查詢提出了更高的要求,它要求採用各種複雜的索引技術;同時由於資料倉庫面向的是商業企業的高層管理者,他們會對資料查詢的介面友好性和資料表示提出更高的要求。 


4、資料倉庫的資料是隨時間不斷變化的

資料倉庫中的資料不可更新是針對應用來說的,也就是說,資料倉庫的使用者進行分析處理時是不進行資料更新操作的。但並不是說,在從資料整合輸入資料倉庫開始到最終被刪除的整個資料生存週期中,所有的資料倉庫資料都是永遠不變的。 

資料倉庫的資料是隨時間的變化而不斷變化的,這是資料倉庫資料的第四個特徵。這一特徵表現在以下3方面: 
(1)資料倉庫隨時間變化不斷增加新的資料內容。資料倉庫系統必須不斷捕捉OLTP資料庫中變化的資料,追加到資料倉庫中去,也就是要不斷地生成OLTP資料庫的快照,經統一整合後增加到資料倉庫中去;但對於確實不再變化的資料庫快照,如果捕捉到新的變化資料,則只生成一個新的資料庫快照增加進去,而不會對原有的資料庫快照進行修改。 

(2)資料倉庫隨時間變化不斷刪去舊的資料內容。資料倉庫的資料也有儲存期限,一旦超過了這一期限,過期資料就要被刪除。只是資料倉庫內的資料時限要遠遠長於操作型環境中的資料時限。在操作型環境中一般只儲存有60~90天的資料,而在資料倉庫中則需要儲存較長時限的資料(如5~10年),以適應DSS進行趨勢分析的要求。 

(3)資料倉庫中包含有大量的綜合資料,這些綜合資料中很多跟時間有關,如資料經常按照時間段進行綜合,或隔一定的時間片進行抽樣等等。這些資料要隨著時間的變化不斷地進行重新綜合。 

因此,資料倉庫的資料特徵都包含時間項,以標明資料的歷史時期。 

資料倉庫是決策支援系統(dss)和聯機分析應用資料來源的結構化資料環境。資料倉庫研究和解決從資料庫中獲取資訊的問題。資料倉庫的特徵在於面向主題、整合性、穩定性和時變性。 

資料倉庫之父William H. Inmon在1991年出版的“Building the Data 
Warehouse”一書中所提出的定義被廣泛接受——資料倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、整合的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的資料集合,用於支援管理決策(Decision Making Support)。 

編輯本段特點 
1、資料倉庫是面向主題的;操作型資料庫的資料組織面向事務處理任務,而資料倉庫中的資料是按照一定的主題域進行組織。主題是指使用者使用資料倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型資訊系統相關。

2、資料倉庫是整合的,資料倉庫的資料有來自於分散的操作型資料,將所需資料從原來的資料中抽取出資料倉庫的核心工具 
來,進行加工與整合,統一與綜合之後才能進入資料倉庫; 

3、資料倉庫是不可更新的,資料倉庫主要是為決策分析提供資料,所涉及的操作主要是資料的查詢; 

4、資料倉庫是隨時間而變化的,傳統的關係資料庫系統比較適合處理格式化的資料,能夠較好的滿足商業商務處理的需求。穩定的資料以只讀格式儲存,且不隨時間改變。

5、彙總的。操作性資料對映成決策可用的格式。 
6、大容量。時間序列資料集合通常都非常大。 
7、非規範化的。Dw資料可以是而且經常是冗餘的。 
8、元資料。將描述資料的資料儲存起來。 
9、資料來源。資料來自內部的和外部的非整合作業系統。 

資料倉庫,是在資料庫已經大量存在的情況下,為了進一步挖掘資料資源、為了決策需要而產生的,它並不是所謂的“大型資料庫”。資料倉庫的方案建設的目的,是為前端查詢和分析作為基礎,由於有較大的冗餘,所以需要的儲存也較大。為了更好地為前端應用服務,資料倉庫往往有如下幾點特點: 

1.效率足夠高。資料倉庫的分析資料一般分為日、周、月、季、年等,可以看出,日為週期的資料要求的效率最高,要求24小時甚至12小時內,客戶能看到昨天的資料分析。由於有的企業每日的資料量很大,設計不好的資料倉庫經常會出問題,延遲1-3日才能給出資料,顯然不行的。

2.資料質量。資料倉庫所提供的各種資訊,肯定要準確的資料,但由於資料倉庫流程通常分為多個步驟,包括資料清洗,裝載,查詢,展現等等,複雜的架構會更多層次,那麼由於資料來源有髒資料或者程式碼不嚴謹,都可以導致資料失真,客戶看到錯誤的資訊就可能導致分析出錯誤的決策,造成損失,而不是效益。 


3.擴充套件性。之所以有的大型資料倉庫系統架構設計複雜,是因為考慮到了未來3-5年的擴充套件性,這樣的話,未來不用太快花錢去重建資料倉庫系統,就能很穩定執行。主要體現在資料建模的合理性,資料倉庫方案中多出一些中間層,使海量資料流有足夠的緩衝,不至於資料量大很多,就執行不起來了。 

從上面的介紹中可以看出,資料倉庫技術可以將企業多年積累的資料喚醒,不僅為企業管理好這些海量資料,而且挖掘資料潛在的價值,從而成為通訊企業運營維護系統的亮點之一。正因為如此, 
廣義的說,基於資料倉庫的決策支援系統由三個部件組成:資料倉庫技術,聯機分析處理技術和資料探勘技術,其中資料倉庫技術是系統的核心,在這個系列後面的文章裡,將圍繞資料倉庫技術,介紹現代資料倉庫的主要技術和資料處理的主要步驟,討論在通訊運營維護系統中如何使用這些技術為運營維護帶來幫助。 


面向主題 

操作型資料庫的資料組織面向事務處理任務,各個業務系統之間各自分離,而資料倉庫中的資料是按照一定的主題域進行組織的。主題是與傳統資料庫的面向應用相對應的,是一個抽象概念,是在較高層次上將企業資訊系統中的資料綜合、歸類並進行分析利用的抽象。每一個主題對應一個巨集觀的分析領域。資料倉庫排除對於決策無用的資料,提供特定主題的簡明檢視。 


整合的資料倉庫中的資料是在對原有分散的資料庫資料抽取、清理的基礎上經過系統加工、彙總和整理得到的,必須消除源資料中的不一致性,以保證資料倉庫內的資訊是關於整個企業的一致的全域性資訊。 相對穩定的 


資料倉庫的資料主要供企業決策分析之用,所涉及的資料操作主要是資料查詢,一旦某個資料進入資料倉庫以後,一般情況下將被長期保留,也就是資料倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、重新整理。 


反映歷史變化
資料倉庫中的資料通常包含歷史資訊,系統記錄了企業從過去某一時點(如開始應用資料倉庫的時點)到目前的各個階段的資訊,通過這些資訊,可以對企業的發展歷程和未來趨勢做出定量分析和預測。 編輯本段資料庫和資料倉庫資料庫已經在資訊科技領域有了廣泛的應用,我們社會生活的各個部門,幾乎都有各種各樣的資料庫儲存著與我們的生活息息相關的各種資料。作為資料庫的一個分支,資料倉庫概念的提出,相對於資料庫從時間上就近得多。美國著名資訊工程專家WilliamInmON博士在90年代初提出了資料倉庫概念的一個表述,認為:“一個數據倉庫通常是一個面向主題的、整合的、隨時間變化的、但資訊本身相對穩定的資料集合,它用於對管理決策過程的支援。”  


這裡的主題,是指使用者使用資料倉庫進行決策時所關心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指資料倉庫內的資訊是按主題進行組織的,而不是像業務支撐系統那樣是按照業務功能進行組織的。 

整合,是指資料倉庫中的資訊不是從各個業務系統中簡單抽取出來的,而是經過一系列加工、整理和彙總的過程,因此資料倉庫中的資訊是關於整個企業的一致的全域性資訊。 
隨時間變化,是指資料倉庫內的資訊並不只是反映企業當前的狀態,而是記錄了從過去某一時點到當前各個階段的資訊。通過這些資訊,可以對企業的發展歷程和未來趨勢做出定量分析和預測。 


編輯本段實現方式  

資料倉庫是一個過程而不是一個專案。 
資料倉庫系統是一個資訊提供平臺,他從業務處理系統獲得資料,主要以星型模型和雪花模型進行資料組織,併為使用者提供各種手段從資料中獲取資訊和知識。 
從功能結構劃分,資料倉庫系統至少應該包含資料獲取(Data Acquisition)、資料儲存(Data Storage)、資料訪問(Data Access)三個關鍵部分。 
企業資料倉庫的建設,是以現有企業業務系統和大量業務資料的積累為基礎。資料倉庫不是靜態的概念,只有把資訊及時交給需要這些資訊的使用者,供他們做出改善其業務經營的決策,資訊才能發揮作用,資訊才有意義。而把資訊加以整理歸納和重組,並及時提供給相應的管理決策人員,是資料倉庫的根本任務。因此,從產業界的角度看,資料倉庫建設是一個工程,是一個過程。 


編輯本段體系結構 

資料來源 
是資料倉庫系統的基礎,是整個系統的資料來源泉。通常包括企業內部資訊和外部資訊。內部資訊包括存放於RDBMS中的各種業務處理資料和各類文件資料。外部資訊包括各類法律法規、市場資訊和競爭對手的資訊等等; 


資料的儲存與管理 
是整個資料倉庫系統的核心。資料倉庫的真正關鍵是資料的儲存和管理。資料倉庫的組織管理方式決定了它有別於傳統資料庫,同時也決定了其對外部資料的表現形式。要決定採用什麼產品和技術來建立資料倉庫的核心,則需要從資料倉庫的技術特點著手分析。針對現有各業務系統的資料,進行抽取、清理,並有效整合,按照主題進行組織。資料倉庫按照資料的覆蓋範圍可以分為企業級資料倉庫和部門級資料倉庫(通常稱為資料集市)。 

OLAP(聯機分析處理)伺服器
對分析需要的資料進行有效整合,按多維模型予以組織,以便進行多角度、多層次的分析,並發現趨勢。其具體實現可以分為:ROLAP(關係型線上分析處理)、MOLAP(多維線上分析處理)和HOLAP(混合型線上分析處理)。ROLAP基本資料和聚合資料均存放在RDBMS之中;MOLAP基本資料和聚合資料均存放於多維資料庫中;HOLAP基本資料存放於RDBMS之中,聚合資料存放於多維資料庫中。 

前端工具 
主要包括各種報表工具、查詢工具、資料分析工具、資料探勘工具以資料探勘及各種基於資料倉庫或資料集市的應用開發工具。其中資料分析工具主要針對OLAP伺服器,報表工具、資料探勘工具主要針對資料倉庫。 編輯本段組成 

資料抽取工具
把資料從各種各樣的儲存方式中拿出來,進行必要的轉化、整理,再存放到資料倉庫內。對各種不同資料儲存方式的訪問能力是資料抽取工具的關鍵,應能生成COBOL程式、MVS作業控制語言(JCL)、UNIX指令碼、和SQL語句等,以訪問不同的資料。資料轉換都包括,刪除對決策應用沒有意義的資料段;轉換到統一的資料名稱和定義;計算統計和衍生資料;給缺值資料賦給預設值;把不同的資料定義方式統一。 

資料倉庫資料庫 
是整個資料倉庫環境的核心,是資料存放的地方和提供對資料檢索的支援。相對於操縱型資料庫來說其
IBM資料倉庫解決方案產品組成突出的特點是對海量資料的支援和快速的檢索技術。 
元資料 
元資料是描述資料倉庫內資料的結構和建立方法的資料。可將其按用途的不同分為兩類,技術元資料和商業元資料。 


技術元資料是資料倉庫的設計和管理人員用於開發和日常管理資料倉庫是用的資料。包括:資料來源資訊;資料轉換的描述;資料倉庫內物件和資料結構的定義;資料清理和資料更新時用的規則;源資料到目的資料的對映;使用者訪問許可權,資料備份歷史記錄,資料匯入歷史記錄,資訊釋出歷史記錄等。 
商業元資料從商業業務的角度描述了資料倉庫中的資料。包括:業務主題的描述,包含的資料、查詢、報表; 
元資料為訪問資料倉庫提供了一個資訊目錄

(informationdirectory),這個目錄全面描述了資料倉庫中都有什麼資料、這些資料怎麼得到的、和怎麼訪問這些資料。是資料倉庫執行和維護的中心,資料倉庫伺服器利用他來存貯和更新資料,使用者通過他來了解和訪問資料。 

資料集市(DataMarts) 
為了特定的應用目的或應用範圍,而從資料倉庫中獨立出來的一部分資料,也可稱為部門資料或主題資料(subjectarea)。在資料倉庫的實施過程中往往可以從一個部門的資料集市著手,以後再用幾個資料集市組成一個完整的資料倉庫。需要注意的就是在實施不同的資料集市時,同一含義的欄位定義一定要相容,這樣在以後實施資料倉庫時才不會造成大麻煩。 資料倉庫管理安全和特權管理;跟蹤資料的更新;資料質量檢查;管理和更新元資料;審計和報告資料倉庫的使用和狀態;刪除資料;複製、分割和分發資料;備份和恢復;儲存管理。 


資訊釋出系統 
把資料倉庫中的資料或其他相關的資料傳送給不同的地點或使用者。基於Web的資訊釋出系統是對付多使用者訪問的最有效方法。 訪問工具 
為使用者訪問資料倉庫提供手段。有資料查詢和報表工具;應用開發工具;管理資訊系統(EIS)工具;線上分析(OLAP)工具;資料探勘工具。 編輯本段設計步驟 
1)選擇合適的主題(所要解決問題的領域) 
2)明確定義事實表 
3)確定和確認維 
4)選擇事實表 
5)計算並存儲fact表中的衍生資料段 
6)轉換維表 
7)資料庫資料採集 
8)根據需求重新整理維表 
9)確定查詢優先順序和查詢模式。 
硬體平臺:資料倉庫的硬碟容量通常要是操作資料庫硬碟容量的2-3倍。通常大型機具有更可靠的效能和和穩定性,也容易與歷史遺留的系統結合在一起;而PC伺服器或UNIX伺服器更加靈活,容易操作和提供動態生成查詢請求進行查詢的能力。選擇硬體平臺時要考慮的問題:是否提供並行的I/O吞吐,對多CPU的支援能力如何,
資料倉庫DBMS:他的儲存大資料量的能力、查詢的效能、和對並行處理的支援如何。 
網路結構:資料倉庫的實施在那部分網路段上會產生大量的資料通訊,需不需要對網路結構進行改進。 
編輯本段建立步驟 


步驟 
1)收集和分析業務需求 
資料倉庫價值曲線 
2)建立資料模型和資料倉庫的物理設計 
3)定義資料來源 
4)選擇資料倉庫技術和平臺 
5)從操作型資料庫中抽取、淨化、和轉換資料到資料倉庫 
6)選擇訪問和報表工具 
7)選擇資料庫連線軟體 
8)選擇資料分析和資料展示軟體 
9)更新資料倉庫 


資料轉換工具 
1)資料轉換工具要能從各種不同的資料來源中讀取資料。 
2)支援平面檔案、索引檔案、和legacyDBMS。 
3)能以不同型別資料來源為輸入整合資料。 
4)具有規範的資料訪問介面 
5)最好具有從資料字典中讀取資料的能力 
6)工具生成的程式碼必須是在開發環境中可維護的 
7)能只抽取滿足指定條件的資料,和源資料的指定部分 
8)能在抽取中進行資料型別轉換和字符集轉換 
9)能在抽取的過程中計算生成衍生欄位 
10)能讓資料倉庫管理系統自動呼叫以定期進行資料抽取工作,或能將結果生成平面檔案 
11)必須對軟體供應商的生命力和產品支援能力進行仔細評估 

主要資料抽取工具供應商:
Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'s 
EDA/SQL.SASInstituteInc. 編輯本段資料倉庫帶來了什麼 
每一家公司都有自己的資料。並且,許多公司在計算機系統中儲存有大量的資料,記錄著企業購買、銷售、生產過程中的大量資訊和客戶的資訊。通常這些資料都儲存在許多不同的地方。 


使用資料倉庫之後,企業將所有收集來的資訊存放在一個唯一的地方——資料倉庫。倉庫中的資料按照一定的方式組織,從而使得資訊容易存取並且有使用價值。 
目前,已經開發出一些專門的軟體工具,使資料倉庫的過程實現可以半自動化,幫助企業將資料匯入資料倉庫,並使用那些已經存入倉庫的資料。 
資料倉庫給組織帶來了巨大的變化。資料倉庫的建立給企業帶來了一些新的工作流程,其他的流程也因此而改變。 
資料倉庫為企業帶來了一些“以資料為基礎的知識”,它們主要應用於對市場戰略的評價,和為企業發現新的市場商機,同時,也用來控制庫存、檢查生產方法和定義客戶群。 
每一家公司都有自己的資料。資料倉庫將企業的資料按照特定的方式組織,從而產生新的商業知識,併為企業的運作帶來新的視角。 編輯本段為何要建立資料倉庫 
計算機發展的早期,人們已經提出了建立資料倉庫的構想。“資料倉庫”一詞最早是在1990年,由Bill Inmon先生提出的,其描述如下:資料倉庫是為支援企業決策而特別設計和建立的資料集合。 
企業建立資料倉庫是為了填補現有資料儲存形式已經不能滿足資訊分析的需要。資料倉庫理論中的一個核心理念就是:事務型資料和決策支援型資料的處理效能不同。 
企業在它們的事務操作收集資料。在企業運作過程中:隨著定貨、銷售記錄的進行,這些事務型資料也連續的產生。為了引入資料,我們必須優化事務型資料庫。 
處理決策支援型資料時,一些問題經常會被提出:哪類客戶會購買哪類產品,促銷後銷售額會變化多少,價格變化後或者商店地址變化後銷售額又會變化多少呢,在某一段時間內,相對其他產品來說哪類產品特別容易賣呢,哪些客戶增加了他們的購買額,哪些客戶又削減了他們的購買額呢, 事務型資料庫可以為這些問題作出解答,但是它所給出的答案往往並不能讓人十分滿意。在運用有限的計算機資源時常常存在著競爭。在增加新資訊的時候我們需要事務型資料庫是空閒的。而在解答一系列具體的有關資訊分析的問題的時候,系統處理新資料的有效性又會被大大降低。另一個問題就在於事務型資料總是在動態的變化之中的。決策支援型處理需要相對穩定的資料,從而問題都能得到一致連續的解答。 
資料倉庫的解決方法包括:將決策支援型資料處理從事務型資料處理中分離出來。資料按照一定的週期(通常在每晚或者每週末),從事務型資料庫中匯入決策支援型資料庫——既“資料倉庫”。資料倉庫是按回答企業某方面的問題來分“主題”組織資料的,這是最有效的資料組織方式。 編輯本段資料倉庫和資料集市 
有關決策支援型資料庫的資料集市是面向企業中的某個部門或是專案小組的。一些專家顧問將資料集市 資料倉庫基本體系結構的建造描述為建立資料倉庫全過程中的一步。首先,一個儲存企業全部資訊的資料倉庫被建立,其中,資料均具備有組織的、一致的、不變的格式。
資料集市隨後被創立,其目的是為不同部門提供他們所需要的那部分資訊。資料倉庫聚集了所有詳細的資訊,而資料集市中的資料則是針對使用者們的特定需求總結而出的。 
而另外一些專家則認為資料集市的建立並不需要首先建立一個數據倉庫。在這個模型中,資料直接由事務型資料庫轉入資料集市中。一個公司可能建立有多個數據集市,而彼此之間毫無聯絡。 
這種不在建立資料倉庫的基礎上建立資料集市的方式會更便宜、更快速,因為它的規模更加易於管理。 
第二種觀點的缺陷在於無法實現最初建立資料倉庫的最主要的目的——將企業所有的資料統一為一致的格式。現有的事務處理系統的資料往往是不一致、冗餘的。如果首先建立起一個全公司範圍的資料倉庫,組織就能夠獲得一個統一關於企業的活動和客戶的知識庫。如果先建立起一個個獨立的資料集市,那麼資料倉庫的諸多優勢都能夠得以實現,但是企業遠遠無法做到對資料的一致的儲存。 

編輯本段資料倉庫與資料庫的關係 
二者的聯絡: 
資料倉庫的出現,並不是要取代資料庫。目前,大部分資料倉庫還是用關係資料庫管理系統來管理的。可以說,資料庫、資料倉庫相輔相成、各有千秋。 

二者的區別: 

1、出發點不同:資料庫是面向事務的設計;資料倉庫是面向主題設計的。 
2、儲存的資料不同:資料庫一般儲存線上交易資料;資料倉庫儲存的一般是歷史資料。 
3、設計規則不同:資料庫設計是儘量避免冗餘,一般採用符合正規化的規則來設計;資料倉庫在設計是有意引入冗餘,採用反正規化的方式來設計。 
4、提供的功能不同:資料庫是為捕獲資料而設計,資料倉庫是為分析資料而設計, 
5、基本元素不同:資料庫的基本元素是事實表,資料倉庫的基本元素是維度表。 
6、容量不同:資料庫在基本容量上要比資料倉庫小的多。 
7、服務物件不同:資料庫是為了高效的事務處理而設計的,服務物件為企業業務處理方面的工作人員;資料倉庫是為了分析資料進行決策而設計的,服務物件為企業高層決策人員。