資料倉庫專題(6)-資料倉庫、主題域、主題概念與定義
一、資料倉庫
關於資料倉庫概念的標準定義業內認可度比較高的,是由資料倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立資料倉庫》)一書中所提出:
中文定義:資料倉庫是一個面向主題的、整合的、相對穩定的、反映歷史變化的資料集合,用於支援管理決策。
英文定義:A data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions.
二、主題
主題是與傳統資料庫的面向應用相對應的,是一個抽象概念,是在較高層次上將企業資訊系統中的資料綜合、歸類並進行分析利用的抽象。每一個主題對應一個巨集觀的分析領域。在邏輯意義上,它是對應企業中某一巨集觀分析領域所涉及的分析物件。面向主題的資料組織方式, 就是在較高層次上對分析物件資料的一個完整並且一致的描 述,能刻畫各個分析物件所涉及的企業各項資料,以及資料之間的聯絡。所謂較高層次是相 對面嚮應用的資料組織方式而言的, 是指按照主題進行資料組織的方式具有更高的資料抽象 級別。 與傳統資料庫面向應用進行資料組織的特點相對應, 資料倉庫中的資料是面向主題進行組織的。主題是根據分析的要求來確定的。這與按照資料處理或應用的要求來組織資料是不同的。
三、主題域
主題域通常是聯絡較為緊密的資料主題的集合。可以根據業務的關注點,將這些資料主題劃分到不同的主題域。主題域的確定必須由終端使用者和資料倉庫的設計人員共同完成。
四、主題域、主題、實體間關係
主題設計是對主題域進一步分解,細化的過程。主題域下面可以有多個主題,主題還可以劃分成更多的子主題,而實體則是不可劃分的最小單位。主題域、主題、實體的關係如下圖所示:
五、關於主題域的爭議
曾經在看到過關於主題域的另外一個定義方式:“主題域是對某個主題進行分析後確定的主題的邊界”。相關內容如下文所示:
主題域是對某個主題進行分析後確定的主題的邊界。分析主題域,確定要裝載到資料倉庫的主題是 資訊打包技術的第一步。而在進行資料倉庫設計時,一般是一次先建立一個主題或企業全部主題中的一部分,因此在大多數資料倉庫的設計過程中都有一個主題域的 選擇過程。主題域的確定必須由終端使用者和資料倉庫的設計人員共同完成
比如,對於Adventure Works Cycle這種型別的公司管理層需要分析的主題一般包括供應商主題、商品主題、客戶主題和倉庫主題。其中商品主題的內容包括記錄超市商品的採購情況、商品 的銷售情況和商品的儲存情況;客戶主題包括的內容可能有客戶購買商品的情況;倉庫主題包括倉庫中商品的儲存情況和倉庫的管理情況等,如圖3-31所示。
圖3-31 根據業務情況確定的分析主題
確定主題邊界實際上需要進一步理解業務關係,因此在確定整個分析主題後,還需要對這些主題進行初步的細化才便於獲取每一個主題應該具有的邊界。對於圖3-31的4個主題及其在企業中的業務關係可以確定邊界如圖3-32所示。
圖3-32 主題域的劃分
經過對以上內容深入分析,發現此定義與:”主題域通常是聯絡較為緊密的資料主題的集合“並不矛盾,只是所站的視角不同,“資料主題集合”的觀點從資料著眼,前提是已經經過分析、梳理列出所有可能的資料主題,此處資料主題是細粒度的,是從微觀到巨集觀;“邊界論”的觀點中,某個主題是分析的主題,是巨集觀概念,而非資料主題。
六、未完待續
分散式資料倉庫資料儲存模型設計進行中,後續會持續更新,請關注QQ群:分散式資料倉庫建模 398419457。
相關推薦
資料倉庫專題(6)-資料倉庫、主題域、主題概念與定義
一、資料倉庫 關於資料倉庫概念的標準定義業內認可度比較高的,是由資料倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立資料倉庫》)一書中所提出: 中文定義:資料倉庫是一個面向
資料倉庫專題(22):匯流排架構和維度建模優勢-雜項
一、匯流排架構 維度建模的資料倉庫中,有一個概念叫Bus Architecture,中文一般翻譯為“匯流排架構”。匯流排架構是Kimball的多維體系結構(MD)中的三個關鍵性概念之一,另兩個是一致性維
資料倉庫專題(9)-基本概念和定義(整理自網際網路)
1、星型模型的組成 一個星型模型對應一個分析主題,它由一個事實表和一組維表組成。其中事實表是星型模型的核心,由分析變數和分析維度代理鍵組成,分析變數存放分析事實數 據,分析維度代理鍵用於連線維表。維表是星型模型的外圍,存放分析維度資料,由維的代理鍵、維的層次屬性、維的描述資訊組成。 2、星型維度模型設計的依
資料倉庫專題(2)-Kimball維度建模四步驟
一、前言 四步過程維度建模由Kimball提出,可以做為業務梳理、資料梳理後進行多維資料模型設計的指導流程,但是不能作為資料倉庫系統建設的指導流程。本文就相關流程及核心問題進行解讀。 二、資料倉庫建設流程 以下流程是根據業務系統、組織結構、團隊結構現狀設定的資料倉庫系統建設流程,適合系統結構複雜,團隊協
資料倉庫專題(21):Kimball匯流排矩陣說明-官方版
一、前言 Over the years, I have found that a matrix depiction of the data warehouse plan is a pretty good planning tool once you have gathered the business r
【ADNI】資料預處理(6)ADNI_slice_dataloader ||| show image
ADNI Series 1、【ADNI】資料預處理(1)SPM,CAT12 2、【ADNI】資料預處理(2)獲取 subject slices 3、【ADNI】資料預處理(3)CNNs 4、【ADNI】資料預處理(4)Get top k slices according to CNN
資料結構——圖(6)——深入分析BFS演算法
DFS的不足和BFS演算法 雖然我們知道根據DFS演算法我們可以找到所有的,由起始節點到目標節點的所有路徑,但並不代表那條路是最短的或者是最佳的。就像我們上篇文章所說的一樣,對於同一幅圖,非遞迴演算法找到的路徑就明顯比遞迴演算法找的要短。 回顧我們之前提到的BFS的基本思想:從起始頂
Python資料分析學習筆記(6)資料規約實戰--以主成分分析PCA為例
一、相關理論: 1、資料規約:產生更小且保持資料完整性的新資料集。意義在於降低無效、錯誤資料;降低儲存成本;少量且具有代表性的資料大幅加快,主要分為以下兩類: ①屬性規約:屬性合併或刪除無關維,目標是尋找最小子集使子集概率分佈儘可能與原來相同。 常用方法: (
Python基礎:資料型別-字串(6)
1.字串基本操作 字串是由字元組成的一串字元序列,字串是有順序的,從左到右,索引從0開始,一次遞增。 Python中字串型別:str。 Python中字串的三種表示方式: (1)普通字串:採用單引號(')或雙引號(")括起來的字串。 (2)原始字串(raw string):在普通
海量資料處理專題(三)——Hash(轉)
【什麼是Hash】Hash,一般翻譯做“雜湊”,也有直接音譯為“雜湊”的,就是把任意長度的輸入(又叫做預對映, pre-image),通過雜湊演算法,變換成固定長度的輸出,該輸出就是雜湊值。這種轉換是一種壓縮對映,也就是,雜湊值的空間通常遠小於輸入的空間,不同的輸入可能會雜湊成相同的輸出,而不可能從雜湊值來唯
海量資料處理專題(七)——資料庫索引及優化(轉)
索引是對資料庫表中一列或多列的值進行排序的一種結構,使用索引可快速訪問資料庫表中的特定資訊。資料庫索引什麼是索引資料庫索引好比是一本書前面的目錄,能加快資料庫的查詢速度。例如這樣一個查詢:select * from table1 where id=44。如果沒有索引,必須遍歷整個表,直到ID等於44的這一行被
海量資料處理專題(一)(轉)
下面的方法是我對海量資料的處理方法進行了一個一般性的總結,當然這些方法可能並不能完全覆蓋所有的問題,但是這樣的一些方法也基本可以處理絕大多數遇到的問題。下面的一些問題基本直接來源於公司的面試筆試題目,方法不一定最優,如果你有更好的處理方法,歡迎與我討論。
海量資料處理專題(八)——倒排索引(搜尋引擎之基石)(轉)
引言:在資訊大爆炸的今天,有了搜尋引擎的幫助,使得我們能夠快速,便捷的找到所求。提到搜尋引擎,就不得不說VSM模型,說到VSM,就不得不聊倒排索引。可以毫不誇張的講,倒排索引是搜尋引擎的基石。VSM檢索模型VSM全稱是Vector Space Model(向量空間模型),是IR(Information Ret
海量資料處理專題(九)——外排序(轉)
【引言】在資料結構的課程上,我們學習了不少的排序演算法,冒泡,堆,快排,歸併等。但是這些排序方法有著共同的特點,那就是所有的操作都是在記憶體中完成的,演算法過程中不需要IO,這就使得這樣的演算法總體上速度比較快,但是也隨之出現了一個問題:當需要排序的資料量異常的大的時候,以上的演算法就顯得力不從心了。這時候,
海量資料處理專題(六)——雙層桶劃分(轉)
【什麼是雙層桶】事實上,與其說雙層桶劃分是一種資料結構,不如說它是一種演算法設計思想。面對一堆大量的資料我們無法處理的時候,我們可以將其分成一個個小的單元,然後根據一定的策略來處理這些小單元,從而達到目的。【適用範圍】第k大,中位數,不重複或重複的數字【基本原理及要點】因為元素範圍很大,不能利用直接定址表,所
海量資料處理專題(五)——堆(轉)
【什麼是堆】概念:堆是一種特殊的二叉樹,具備以下兩種性質1)每個節點的值都大於(或者都小於,稱為最小堆)其子節點的值2)樹是完全平衡的,並且最後一層的樹葉都在最左邊這樣就定義了一個最大堆。如下圖用一個數組來表示堆:那麼下面介紹二叉堆:二叉堆是一種完全二叉樹,其任意子樹的左右節點(如果有的話)的鍵值一定比根節點
海量資料處理專題(四)——Bit-map(轉)
【什麼是Bit-map】所謂的Bit-map就是用一個bit位來標記某個元素對應的Value, 而Key即是該元素。由於採用了Bit為單位來儲存資料,因此在儲存空間方面,可以大大節省。如果說了這麼多還沒明白什麼是Bit-map,那麼我們來看一個具體的例子,假設我們要對0-7內的5個元素(4,7,2,5,3)排
MongoDB(6)資料聚合 & 管道操作
MongoDB 入門專欄管道操作mongodb 的資料聚合過程通常會配合管道操作,mongodb 的管道操作概念類似於 LInux 中的管道概念,mongodb 的聚合管道將 mongodb 文件在一個管道處理完畢後將結果傳遞給下一個管道處理,管道操作是可以以此重複的;mon
資料結構筆記(6)
樹與二叉樹 1.樹 2.二叉樹 二叉樹的性質: 在非空二叉樹中,第i層的結點總數不超過2i-1, i>=1; 深度為h的二叉樹最多有2h-1個結點(h>=1),最少有h個結點; 對於任意一棵二叉樹,如果其葉結點數為N0,而度數為2的
胖子哥的大資料之路(6)- NoSQL生態圈全景介紹
引言: NoSQL高階培訓課程的基礎理論篇的部分課件,是從一本英文原著中做的摘選,中文部分參考自網際網路。給大家分享。 正文: The NoSQL Ecosystem 目錄 The NoSQL Ecosystem... 1 13.1. What's in a Name?.