1. 程式人生 > >資料倉庫中的一些核心概念

資料倉庫中的一些核心概念

1、什麼是資料倉庫

      資料倉庫技術是隨著人們對大型資料庫系統研究的不斷深入,在傳統資料庫技術基礎之上發展而來的,其主要目的就是為決策提供支援,為OLAP、資料探勘深層次的分析提供平臺。
      資料倉庫是一個和實際應用密不可分的研究領域,與傳統資料庫相比,資料倉庫不僅引入了許多新的概念,而且在體系結構、資料組織等方面,均有其自身的特點。

2、資料倉庫要解決的基本問題

    全域性範圍內統一資料檢視
        資料內容
            資料的完整性
            資料的準確性
        資料的一致性
        資料組織
            面向分析決策

3、資料倉庫的定義

資料倉庫之父Bill Inmon在1991年出版的“Building the Data Warehouse”(《建立資料倉庫》)資料倉庫(Data Warehouse)是一個面向主題的(Subject Oriented )、整合的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的資料集合,用於支援管理決策和資訊的全域性共享。

4、DW中的資料組織

1、DW中的資料以四個基本特徵為基礎, 分為四個級別:
早期細節級、當前細節級、輕度綜合級、高度綜合級。
源資料經過綜合後,首先進入當前細節級,並根據具體需要進行進一步的綜合從而進入輕度綜合級及至高度綜合級。
老化的資料將進入早期細節級。
不同的綜合級別稱之為 "粒度"。
2、四級資料說明:
高度綜合資料層:這一層的資料是在輕度綜合資料基礎上的再一次綜合,是一種準決策資料。
輕度綜合資料:從近期基本資料中提取出的,這層資料是按時間段選取,或按資料屬性和內容進行綜合。
當前細節級(近期基本資料):是最近時期的業務資料, 是資料倉庫使用者最感興趣的部分,資料量大。
早期細節級(歷史基本資料):近期基本資料隨時間的推移, 由資料倉庫的時間控制機制轉為歷史基本資料。

5、資料粒度

粒度問題是設計資料倉庫的一個最重要方面。
粒度: 資料倉庫中儲存資料的細化或綜合程度的級別。
細化程度越高,粒度越小; 粒度越高,所能回答查詢的能力越低。
注意: 粒度劃分的決定性因素不是總資料量, 而是總的記錄數。

6、立方和資料立方體

資料倉庫建立在多維資料模型上,以資料立方體的方式來觀察資料
在資料倉庫研究界, 把資料立方體稱為方體。
給定若干個維構造出方體的格稱為資料立方體。
    其中每一個方體都表示在不同的概括層次上的彙總
    頂點方體: 最頂層的方體; 它是0維方體, 代表最高的概括層, 即求所有所有資料的總和;
    基本方體: 最低層的方體; 存放最低層彙總資料。
    其餘每個點通稱為方體, 代表一個普通的資料立方。
    下圖是一個數據立方體和對應的各個層次的方體。

這裡寫圖片描述

7、多維資料模型的相關概念

度量(或稱變數):資料的實際意義; 即描述資料 "是什麼"
如: 銷售量、庫存量等;  可對它們進行統計, 聚集操作等。
維(OLAP的核心)是人們觀察資料的特定角度。
例: 一個電子公司的銷售從三個方面(三個維)分析銷售額:
    時間維:在某段時間內的銷售情況, 度量為季度(或年, 月, 旬, 天)
    地區維: 在某個地區的銷售情況,  度量為省(或國家, 市)
    產品維: 某類(或型號)產品的銷售情況, 度量為類別(或型號等)
維屬性值: 維屬性的取值
    如商品維可以有: 產地, 顏色等
資料單元: 不同維度在某個取值下的交叉點, 是事件的度量

這裡寫圖片描述

8、維的層次和層數

維的層次: 人們觀察資料細節的不同程度稱為維的層次
    人們觀察資料的某個特定程度(即某個維)還可能存在細節程度不同的多個方面。
        如描述時間維時,可從日期、月份、季度、年等不同層次來描述,則日期、月份、季度、年就是時間維的層次。
維成員: 維的一個取值稱為該維的一個維成員也稱維值
    若一個維的某種層次具有多個層, 則該維的維成員是不同維層取值的組合。一個維成員並不一定在每個維上都要取值。

這裡寫圖片描述

9、概念分層:維度(location)

這裡寫圖片描述

10、資料立方體的例子

這裡寫圖片描述