企業架構研究總結(13)——聯邦企業架構之FEA及參考模型(下)
資料參考模型DRM
資料參考模型的目標是通過標準的資料描述、通用資料的發現以及統一的資料管理實踐的推廣使得聯邦政府實現跨機構的資訊共享和重用。資料參考模型的適用範圍很廣,它可以用在一個機構內部,也可以用在某一個利益共同體(COI,Community of Interest,指的是一組為了實現共同利益和目標而相互合作的人或組織,而為了達成這一目標,他們需要一個共享的詞彙表來實現資訊共享)內或不同利益共同體之間。為了實現這一目的,資料參考模型採用了一種靈活的且基於標準的方式對資料的描述、分類和共享進行定義,因而資料參考模型的內容被劃分為如下三個標準領域:
DRM標準領域及其關係
- 資料描述(Data Description):提供對於資料的統一描述方法,從而支援資料的發現和共享。
- 資料上下文(Data Context):採用某種分類法對資料進行歸類,從而便於資料的發現。此外,資料上下文還使得定義一個利益共同體的權威資料資產(authoritative data assets)成為可能。
- 資料共享(Data Sharing):支援資料的訪問和交換,其中資料訪問是指單次性的特定請求(例如對於資料的查詢),而資料交換指的是在不同團體之間經常性發生的針對於固定模式或需求的資料的往來互動事務(例如庫存部門和稽核部門之間經常需要對庫存中的貨物資訊進行核對,雖然每次互動的貨物資訊的內容有所不同,但是其對於用於描述貨物資訊的資料模型卻是早已確定好了的)。
資料參考模型作為一個參考模型為各機構提供了一套抽象的框架,而對於其具體實現就由各機構在符合參考模型原則的基礎上自行決定了,從而為各機構對於資料方面的描述提供了巨大的靈活性。此外,由於各個機構可以將組成其資料架構的各種元素與該抽象框架相關聯,從而使得原本隔絕的不同機構在資料方面得到了溝通途徑,促進了不同機構之間的互操作。此資料參考模型所使用的抽象框架模型如下所示:
DRM抽象模型
資料參考模型的抽象模型為各機構用來進行資訊整合、互操作、發現和共享的資料架構的優化提供了一套架構模式。為了達到這個目標,該抽象模型對資料架構概念元素以及他們之間的關係進行了明確定義,並且針對每個概念元素此抽象模型還分別定義了一系列的通用屬性。此抽象模型按照上述三個標準區域被劃分為三個部分,分別用於包含與這三個標準區域相關的概念元素及其關係。需要注意的是,由於這三個標準相互關聯,因而上圖所示的一些概念元素會出現多次,但是隻有具有實線邊框的概念元素才是其真正的定義,而虛線邊框的概念元素則用來表示從其他標準區域“借用”而來的意義。
除了抽象模型之外,資料參考模型還包含了對於資料在安全和隱私方面的考慮。資料參考模型強調了在這三個標準區域中都需要遵循安全和隱私方面的策略,並允許現存的聯邦安全和隱私策略被應用到這些標準區域中。
資料描述
資料描述標準區域的目標是為利益共同體提供關於資料結構(語法)和意義(語義)的共識。為了達成這一共識,利益共同體需要基於資料參考模型在這一標準區域中的內容建立各種相關的資料描述製品。關於資料標準領域的內容都已被定義在DRM抽象模型的相關部分中:
DRM資料描述模型
這一資料描述抽象模型在一個高度抽象的層次上對資料描述標準領域中涉及到的各種製品進行了抽象。從上面的資料描述模型中我們可以看出,數字資料資源(Digital Data Resource)可以分為兩大類:
- 結構化資料:在資料描述模型中,結構化資料資源由資料模式(Data Schema)和結構化資料資源(Structured Data Resource)這兩個部分組成。
- 資料模式為結構化資料資源的語法和語義進行了定義,可以說是結構化資料的元資料(Meta data)。在資料描述模型中,資料模式是通過實體(Entity)、屬性(Attribute)、關係(Relationship)和資料型別(Data Type)這四個概念以及他們之間的關係來定義的。
- 結構化資料資源(Structured Data Resource)可以看作是遵守資料模式定義的例項化資料。
- 非結構化和半結構化資料(Unstructured / Semi-structured Data Resource):除了結構化資料之外,現實中還存在著諸如視訊資料、音訊資料等非結構化資料,其與結構化資料的最大區別在於,非結構化資料的語義和語法與例項資料本身是緊密結合在一起的,因而一般來講,其資料的組織結構和意義對外界並不具備很強的公開和互動性,而結構化資料與之相反,定義其資料結構和意義的資料模式資訊可以獨立於例項資料之外,用於在不同的資料互動團體之間進行鍼對語義和語法的交流。當然事實總不是那麼絕對,資料參考模型的資料描述部分還定義了半結構化資料資源這一概念,用於代表同時包含結構化資料和非結構化資料的資料資源。在這部分模型中,一個名為文件(Document)的概念也被提了出來,而且還被定義為包含各種數字資料資源的容器。
按照OMB的資料參考模型中所述,這一部分模型中所涉及到的各種概念元素定義如下:
- 資料模式(Data Schema):對於元資料的一種表述,經常採用諸如邏輯資料模型或概念資料模型的形式。資料模式概念組包含了與結構化資料的表述相關的各個概念元素。一份資料模式為資料共享提供了獨立於其所描述的具體資料值的語義。資料模式與其它概念元素之間具有如下關係:
- 資料模式定義了結構化資料資源。由於在資料參考模型中資料資源是一種資訊容器的概念(通常來講就是檔案),所以這裡的“結構化資料資源”實際上指的是用於存放資料模式這一元資料資訊的資訊容器,例如模式檔案等。
-
資料模式描述了一個結構化資料資產。與資料資源類似,資料資產也是一個資訊容器,只不過它指代的是一個託管容器(managed container),在大多數情況下指的是關係資料庫,當然它還可以代表網站、檔案資源庫、字典或者資料服務。
-
實體(Entity):針對現實世界中客觀事物的抽象。實體與其它概念元素之間具有如下關係:
- 實體包含若干屬性。
- 實體通過“關係”觀念元素與其他實體建立關聯。
- 資料型別(Data Type):對於一個屬性的物理表述的型別約束。
- 屬性(Attribute):針對實體某一特性的抽象。屬性與其它概念元素之間具有如下關係:
- 一個屬性的取值受約束於一個數據型別
- 關係(Relationship):用於描述實體間的關係。“關係”概念元素與其它概念元素之間具有如下關係:
- 關係概念元素關聯了參與此關係意義的各個例項。
- 數字資料資源(Digital Data Resource):用於描述一個資訊的數字容器,一般來講就是“檔案”。數字資料資源按照其包含的資料型別分為三類:結構化資料資源、非結構化資料資源和半結構化資料資源,同時由於元資料本質上也是資料,因而一個數字資料資源還可以作為元資料的容器。數字資料資源與其它概念元素之間具有如下關係:
- 數字資料資源可以描述半結構化資料資產。
- 數字資料資源可以描述非結構化資料資產。
- 結構化資料資源(Structured Data Resource):用於包含結構化資料的數字資料資源。一旦資料模式可知,那麼被其描述的資料將可以通過一種統一且獨立於資料值的方式進行訪問。結構化資料資源與其它概念元素之間具有如下關係:
- 結構化資料資源是數字資料資源的一種。
- 非結構化資料資源(Unstructured Data Resource):用於包含非結構化資料的數字資料資源。非結構化資料是一系列可能被某些特定應用程式進行處理的資料值的集合。非結構化資料資源與其它概念元素之間具有如下關係:
- 非結構化資料資源是數字資料資源的一種。
- 半結構化資料資源(Semi-structured Data Resource):用於包含半結構化資料的數字資料資源,即其包含的資料中一部分是結構化資料而另一部份是非機構化資料。半結構化資料資源與其它概念元素之間具有如下關係:
- 半結構化資料資源是數字資料資源的一種。
- 文件(Document):用於指代用來容納數字資料資源的檔案。文件與其它概念元素之間具有如下關係:
- 文件可以包含結構化、非結構化或半結構化資料資源。
- 文件可以對實體進行引用。例如,一份文件引用了“人”這個實體,因而就可以進行這樣的查詢:“尋找引用瞭如下個人的所有文件”。
資料上下文
資料上下文用於為資料新增與其被使用和建立的目標相關的意義,從而便於具有不同視角的資料消費者對於資料的發現和使用。經過資料描述的定義,利益共同體內或者他們之間對於資料的描述將會產生共識,但是這並不意味著具有不同視角的資料消費者就對所有的資料實體或者資料實體的所有屬性都關心,甚至即便是針對某個資料實體的例項資料,不同的資料消費者由於其視角的不同也可能只對其中部分例項資料感興趣。舉例來說,假設一個名為“人”的實體,它對人進行了抽象並在利益共同體內根據所有參與者的共識定義了符合所有資料消費者要求的屬性,但是在使用過程中,可能有更關注於商業行為方面的資料消費者從顧客的角度來看待人,因而對他來說諸如頭髮顏色之類的資訊並不一定關注,而對於執法機構方面的資料消費者卻不然。由此我們可以看出,資料可以根據不同的方式進行分類,而針對分類方式的描述和定義就構成了“資料上下文”。除了關於資料的分類劃分這一核心概念,在資料參考模型中資料上下文相關的各種製品至少要能回答如下幾個具體問題:
- 資料資產中資料的主題是什麼?
- 什麼組織負責維護資料資產?
- 資料與業務參考模型的關係是什麼?
- 用於訪問資料資產的服務都有哪些?
資料上下文的定義實際上就是針對資料使用背景的分類法的定義。雖然用來進行分類的角度紛繁複雜,但是本質上來講不論何種分類法都可以通過結構化的方式進行表述,而這也為不同團體之間對於分類法的語義和語法的獲得共識提供了基礎。藉由經過結構化表述的分類法定義,資料消費者可以識別符合自己要求的資料資產是否存在,並檢測其包含的資料是否符合他對資訊的要求。站在資料上下文的角度,其實前面講述過的各個參考模型也是一種分類方法,因而資料上下文也可以看成是聯絡資料參考模型與其他參考模型的橋樑(例如,可以將資料按照不同的業務線或子功能進行劃分,從而將資料參考模型與業務參考模型結合在一起)。
DRM資料上下文模型
上圖展示了資料參考模型的抽象模型的資料上下文部分,它對資料上下文相關製品進行了定義。從圖中可知:
- 關於資料上下文的分類法(Taxonomy)包含若干主題(Topic),而且主題之間是具有相互聯絡的。分類法被描述為結構化資料並存放於結構化資料資源中。為了與其他參考模型建立聯絡,在此圖中其他參考模型作為分類方法的具體實現被表述出來,當然這並不排除其他分類方法的定義。
- 每個分類法的主題被用來為資料資產進行分類,同時也可以為各種數字資料資產、訪問點和資訊交換包進行分類。
- 可以為資料資產指定一個數據管理負責人。
按照OMB的資料參考模型中所述,這一部分模型中所涉及到的各種概念元素定義如下:
- 分類法(Taxonomy):一個通過層次結構進行組織的受控詞彙(controlled vocabulary terms)的集合。分類法提供了一種通過使用合理且定義良好的締合結構對資訊進行分類的方法。分類法與其它概念元素之間具有如下關係:
- 分類法包含若干主題。
- 分類法被表述為結構化資料資源。
-
主題(Topic):分類法中的一個分類,它是為資料賦予上下文的核心概念元素。主題與其它概念元素之間具有如下關係:
- 主題對資料資產進行分類。
- 主題可以對數字資料資源進行分類。
- 主題可以對訪問點進行分類。
- 主題可以對交換資訊包進行分類。
- 主題通過“關係”概念元素與別的主題建立關聯。
- 關係(Relationship):用於描述主題間的關係。關係概念元素與其它概念元素之間具有如下關係:
- “關係”概念元素關聯了參與此關係主題概念元素。
- 資料資產(Data Asset):用於代表資料的託管容器。在很多情況下,資料資產代表著關係資料庫,然而資料資產還可以被用來代表網站、文件庫、字典或者資料服務。資料資產與其它概念元素之間具有如下關係:
- 資料資產為數字資料資源提供管理上下文。例如,一份被某個資料資產(例如文件庫)儲存和管理的文件會具有管理上下文,而此管理上下文是通過與那個文件關聯並存儲於文件庫中的元資料來提供的。
- 資料管理員(Data Steward):用來代表對資料資產的管理負責的人。資料管理員與其它概念元素之間具有如下關係:
- 資料資產可以被資料管理員進行管理。
- 其他聯邦企業架構參考模型(Other FEA Reference Model):用於代表其他的聯邦企業架構參考模型。通過將其他參考模型看作為具體的分類方法,該概念元素在資料參考模型和其他參考模型之間搭建了關聯。此概念元素與其它概念元素之間具有如下關係:
- 其他聯邦企業架構參考模型是分類方法的具體型別。
資料共享
在定義了資料描述和資料上下文之後,利益共同體就需要把精力放在規劃和實現資訊訪問及相互交換方面上面,而在資料參考模型中資料共享標準區域為這一方面能力的實現提供了參考。所謂資訊互交換通常是指在資訊生產者和資訊消費者之間所存在的相對固定且時常發生的資訊互動過程,而針對資訊的使用除了這種互交換的方式外,作為資訊源的資訊生產者往往還需要對外提供各種資訊訪問介面和服務,從而為各種不確定的外界資訊消費者提供資訊訪問的能力,而這種通過各種資訊訪問介面和服務而獲取資訊的能力就是資訊訪問能力。
資料提供和使用矩陣
如圖可見,在資訊交換和資訊訪問之間,除了前者一般是經常性或週期性地發生,而後者的發生則更具隨機性之外,他們之間最大差別還在於資訊交換對於參與雙方在交換髮生前就已經得到了明確,而資訊訪問則只是資料生產者提供資訊訪問的介面和服務,而對於資料的消費者卻並不明確,即前者更加主動,而後者則採用了被動方式。不過無論是資訊交換還是資訊訪問,他們都是在不同的資料資產之間進行的資訊共享過程,因而要對這些資訊共享方式進行歸納和建模,首先需要明確參與資訊共享的各種資訊儲存系統。為了這些系統,資料共享標準領域採用了資料提供和消費矩陣(data supplier-to-customer matrix),從而將用於儲存資訊的各種資料資產進行了歸納整理。此矩陣從兩個維度將參與資訊共享的資料資產分為四種:
- 這兩種緯度分別是:
- 根據所存資訊的型別,資料資產可以分為用於儲存和操作結構化資料的系統(圖中第一、二象限)和用於儲存和操作非結構化資料的系統(如圖中第三、四象限)。
- 根據對資訊所能進行的操作型別,資料資產又可以分為能夠對資料進行全權操作(建立、更新和刪除)的系統(如圖中第一、三象限)和僅能針對資料進行檢索與分析的系統(如圖中第二、四象限)
- 根據這兩種維度,能夠參與資訊共享的資料資產被分為如下四種系統:
- 事務資料庫(Transactional Database):此種資料庫包含了用於支援業務流程和工作流的結構化資料物件,並且經過精心的設計,這些資料庫的事務效能往往能夠得到高度的規範化和優化。通常此種類型的資料資訊庫包括了支援聯機事務處理系統(OLTP)、企業資源管理系統(ERP),以及其他用於實現核心業務流程和工作流的後臺系統資料庫。通常來講,由於執行業務邏輯和引用完整性的需要,使用者並不能對此資料資訊庫中的資料直接進行建立、讀取、更新和刪除操作,而需要通過由應用程式介面(API)提供的各種服務來達成。
- 分析資料庫(Analytical Database):此種資料庫包含了用於支援查詢和分析的結構化資料,並且為了提高查詢方便性和效率,這些結構化的資料庫傾向於有目的性地去規範化和優化。在此資料資訊庫中的資料一般來自於一個或多個事務資料庫,並且以某種結構聯合在一起來支援回答與業務和/或任務利益相關的特定問題。此資料資訊庫包括了聯機分析(OLAP)、資料倉庫(Data warehouse)、資料集市(Data mart),以及目錄(例如支援輕量目錄訪問協議(LDAP)或者X.500的資訊庫)。一般來講,儲存在這種資訊庫中的資料可以通過查詢進行直接訪問,而針對資料的建立、更新和刪除操作通常會通過間接方法(例如,抽取、轉換和載入(ETL)過程)來對相關的事務資料庫來進行。
- 著作系統資訊庫(Authoring Systems Repository):在資料參考模型的背景下,“文件”這個詞的概念範圍非常大,它涵蓋了廣大範圍內的各種資訊物件,例如多媒體、嵌入圖片的文字文件、XML模式或文件型別定義(DTD)等。通常來講,在這個背景下“著作系統”也同樣具有廣闊的範圍。從一個極端來講,一個著作系統可以是一個數碼照相機,而在相反的另一極端,一個著作系統也可以是用於產生正規出版物的一個複雜工作流。雖然著作系統範圍廣闊,但是不論在哪個極端,著作系統的產物都是“文件”,而且著作系統底層的資訊庫也包括了各種能夠儲存資料物件的系統(最常見的例子就是檔案系統和關係資料庫)。與事務資料庫類似,對於著作系統的底層資訊庫中的資料進行直接訪問和操作是不提倡的,因為忽略業務邏輯而對資料進行的操作往往會影響資料的完整性。
- 文件資訊庫(Document Repository):與分析資料庫類似,文件資訊庫的目標也是為了優化資訊檢索而對資料進行儲存。此種資訊庫包括了網站的檔案系統、內容管理系統之下的關係資料庫,XML註冊和資訊庫。同樣與分析資料庫類似,針對此種資訊庫中資料的操作一般只傾向於對其中資料的查詢,而建立、更新和刪除操作則通常並不對終端使用者開放,而是通過一個由著作系統執行的釋出功能來實現。
通過資料提供和消費矩陣針對上述四種資料系統的歸納,我們可以將資料交換和資料訪問進行更進一步的具體化:
- 所謂資料交換就是在上述四種資料系統之間所進行的內容定義相對固定且時常發生的交換資料過程。這些資料交換過程以及他們所適用情景描述如下:
- 抽取、轉換和載入(從結構化資料到結構化資料):在抽取、轉換和載入(ETL)過程中,首先資料來源中的結構化資料物件被讀取(抽取)出來,然後將這些被抽取出來的資料的結構轉換為符合目標資料庫要求的結構(轉換),最後使用轉換後的資料更新目標資料庫(載入)。用於執行ETL過程的各種服務可以非常複雜也可以是非常簡單,同時他們也可以是其他服務的一個組成部分。這種型別的資料交換服務的資訊載體是結構化資料。
- 釋出(從結構化資料或文件到聚集後的文件):“釋出”是一個將若干文件片段按照需要的格式組合在一起,並最終存入目標資料庫的過程。此種類型的資料交換服務的資訊載體是文件。
- 實體/關係抽取(從非結構化文件到結構化文件或結構化資料物件):實體/關係抽取是一個從文件中識別並抽取出特定元素的過程。在這個過程中,實體是指代特定的人、地點或事物的名詞,而關係代表了實體之間的關聯。一般來講,在此過程中識別出來的實體可以作為元資料而合併到源文件之中,或被插入到一個獨立的文件或結構化資料庫中。此種類型的資料交換服務的資訊載體是結構化資料。
- 文件翻譯(從文件到文件):文件翻譯是為了支援目標應用的需要,而將文件從一種形式轉換為另一種的過程。這種轉換可以是基於結構的,也可以是面向語言或其他特定目標的。此種類型的資料交換服務的資訊載體是文件
資料交換服務 |
資料提供者 |
資料消費者 |
抽取、轉換和載入 |
事務資料庫 |
事務資料庫 |
事務資料庫 |
分析資料庫 |
|
事務資料庫 |
著作系統 |
|
分析資料庫 |
事務資料庫 |
|
分析資料庫 |
分析資料庫 |
|
分析資料庫 |
著作系統 |
|
著作系統 |
事務資料庫 |
|
著作系統 |
分析資料庫 |
|
釋出 |
事務資料庫 |
文件資訊庫 |
分析資料庫 |
文件資訊庫 |
|
著作系統 |
著作系統 |
|
著作系統 |
文件資訊庫 |
|
實體/關係抽取 |
文件資訊庫 |
事務資料庫 |
文件資訊庫 |
分析資料庫 |
|
文件翻譯 |
文件資訊庫 |
著作系統 |
文件資訊庫 |
文件資訊庫 |
- 所謂資料訪問就是上述各資料系統為了便於外界訪問自身資料而對外提供的各種服務。
- 上下文獲知服務(Context Awareness Services):此服務允許使用者可以對利益共同體資料資產的上下文資訊進行快速獲取。上下文資訊可以被存放在一個正規化的資料架構、元資料登錄檔或者是獨立的資料庫之中。上述所有的資料系統都應該提供這項服務。
- 結構獲知服務(Structural Awareness Services):此服務允許資料架構師和資料庫管理員能夠快速地識別出存在於資料資產中的資料結構。資料描述資訊可以被存放於一個正規化的資料架構、元資料登錄檔或者是獨立的資料庫之中。上述所有的資料系統都應該提供這項服務。
- 事務服務(Transactional Services):此服務使得在維護業務和引用完整性規則時,針對底層資料儲存庫的事務的建立、更新和刪除操作成為可能。此服務允許外界服務或終端使用者將執行資料相關的功能作為工作流或業務流程的一部分。在事務資料庫和著作系統中需要提供此服務。
- 資料查詢服務(Data Query Services):此服務允許使用者、服務或者應用直接對資訊庫中的資料進行查詢。在事務資料庫和分析資料庫中需要提供此服務。
- 內容搜尋和發現服務(Content Search and Discovery Services):此服務允許自由文字搜尋或者對資訊庫中各文件所包含的元資料的搜尋,並且這些可進行搜尋的元資料還應該包括資料上下文。在著作系統和文件資訊庫系統中需要提供此服務。
- 檢索服務(Retrieval Services):此服務允許一個應用可以通過某一個唯一標識(例如URL)來請求返回資訊庫中的一份特定文件。在著作系統和文件資訊庫系統中需要提供此服務。
- 訂閱服務(Subscription Services):此服務允許其他服務或終端使用者在符合某預定義的策略或配置的前提下可以對自己進行提名,從而對新加入到資訊庫的文件進行自動化接收。在著作系統和文件資訊庫系統中需要提供此服務。
- 通知服務(Notification Services):此服務會依據某預定義的策略或配置,將資訊庫內容的變化通知給其他服務或終端使用者。在事務資料庫、著作系統和文件資訊庫系統中需要提供此服務。
訪問服務 |
事務資料庫 |
分析資料庫 |
著作系統 |
文件資訊庫 |
上下文獲知服務 |
√ |
√ |
√ |
√ |
結構獲知服務 |
√ |
√ |
√ |
√ |
事務服務 |
√ |
× |
√ |
× |
資料查詢服務 |
√ |
√ |
× |
× |
內容搜尋和發現服務 |
× |
× |
√ |
√ |
檢索服務 |
× |
× |
√ |
√ |
訂閱服務 |
× |
× |
√ |
√ |
通知服務 |
√ |
× |
√ |
√ |
通過上述的關於資料系統的分類,以及針對他們之間進行資訊交換和對外提供資訊訪問能力所需的各種服務的描述,利益共同體可以將各種資料資產和進行資訊共享所需的各種服務進行分類總結,從而明確企業資料架構中關於資訊共享這部分的內容。與資料描述和資料上下文一樣,資料共享中所涉及到的各種製品的定義也體現在了資料參考抽象模型的資料共享部分:
DRM資料共享模型
- 交換包(Exchange Package):用於表述產生於資料提供者和資料消費者之間的經常性的資料交換。交換包中包含了與交換過程相關的各種資訊(例如資料提供者ID、資料消費者ID、資料有效期等),以及對於進行交換的資料載體的引用。交換包還可以被用來定義在一次資訊交換中被某個查詢點(Query point)接受與處理的查詢結果的格式。交換包與其它概念元素之間具有如下關係:
- 交換包引用了實體。
- 交換包被傳播給資料消費者。
- 交換包對查詢點進行查詢。
- 交換包引用了針對交換資料載體的定義。
- 資料提供者(Supplier):用於代表提供資料給資料消費者的實體。資料提供者與其它概念元素之間具有如下關係:
- 資料提供著產生交換包。
- 資料消費者(Consumer):用於代表對資料提供者產生的資料進行使用的實體。
- 資料載體定義(Payload Definition):用於代表針對在資料提供者和消費者之間進行交換的資料載體的需求而制定的電子化定義。
- 查詢點(Query Point):用於代表為訪問和查詢資料資產而提供介面的端點。一個查詢點的具體表達可以是一個特定的用於引發Web服務的URL。查詢點與其概念元素之間具有如下關係:
- 查詢點訪問資料資產。