數倉簡介
資料倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立資料倉庫》)一書中所提出的定義被廣泛接受,資料倉庫是一個面向主題的(Subject Oriented)、整合的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的資料集合,用於支援管理決策。
OLTP:on-line transaction proccessing,聯機事務處理,主要是業務資料,需考慮高併發,考慮事務。主要應用於關係型資料庫
OLAP:on-line analytical proccessing,聯機分析處理,主要面向複雜分析,會產生大量查詢,很少增刪改。主要應用於資料倉庫
數倉是一個環境。目的是為了讓使用者更快,更方便的查詢索要的資訊,提供決策支援。
數倉按主題進行組織-面向主題,對原有分散的資料庫資料抽取,清理的基礎上經過系統加工,彙總,整理得到。必須消除源資料的不一致性以保證數倉內的資訊是關於整個企業一致的全域性資訊-整合。一旦資料進入數倉,將長期存在,並被使用者大量查詢,修改和刪除操作很少-穩定。數倉一般包括企業從某一時點到目前各個階段的資訊。可對企業發展做出定量分析和預測-反映歷史變化
對不同資料儲存方式的訪問能力是資料抽取工具的關鍵,應能生成Cobol程式,MVS作業控制語言,UNIX指令碼,SQL語句,用以訪問不同的資料。
資料轉換包括:刪除對決策沒有意義的資料欄位,轉換統一的資料名稱和定義,計算統計和衍生資料,給缺值資料賦給預設值,統一不同資料定義方式
元資料是描述資料倉庫內資料的結構和建立方法的資料。可將其按用途的不同分為兩類,技術元資料和商業元資料。
技術元資料是資料倉庫的設計和管理人員用於開發和日常管理資料倉庫用的資料。包括:資料來源資訊;資料轉換的描述;資料倉庫內物件和資料結構的定義;資料清理和資料更新時用的規則;源資料到目的資料的對映;使用者訪問許可權,資料備份歷史記錄,資料匯入歷史記錄,資訊釋出歷史記錄等。
商業元資料從商業業務的角度描述了資料倉庫中的資料。包括:業務主題的描述包含的資料、查詢、報表;
元資料為訪問資料倉庫提供了一個資訊目錄(informationdirectory),這個目錄全面描述了資料倉庫中都有什麼資料、這些資料怎麼得到的、和怎麼訪問這些資料。是資料倉庫執行和維護的中心,資料倉庫服務
資料集市:從資料倉庫中獨立出來的一部分資料,針對使用者特定需求得出的
資料倉庫管理:安全和特權管理;跟蹤資料的更新;資料質量檢查;管理和更新元資料;審計和報告資料倉庫的使用和狀態;刪除資料;複製、分割和分發資料;備份和恢復;儲存管理
資訊釋出系統:把資料倉庫中的資料或其他相關的資料傳送給不同的地點或使用者。基於Web的資訊釋出系統是對付多使用者訪問的最有效方法
資料倉庫的設計步驟
1)選擇合適的主題(所要解決問題的領域)。
2)明確定義fact表。
3)確定和確認維。
4)choosing the facts。
5)計算並存儲fact表中的衍生資料段。
6)rounding out the dimension tables。
7)choosing the duration of the database。
8)the need to tracks lowly changing dimensions。
9)確定查詢優先順序和查詢模式。
2、資料倉庫的建立步驟
1)收集和分析業務需求。
2)建立資料模型和資料倉庫的物理設計。
3)定義資料來源。
4)選擇資料倉庫技術和平臺。
5)從操作型資料庫中抽取、淨化、和轉換資料到資料倉庫。
6)選擇訪問和報表工具。
7)選擇資料庫連線軟體。
8)選擇資料分析和資料展示軟體。
9)更新資料倉庫 。