1. 程式人生 > >金融主題域模型

金融主題域模型

大資料平臺建設後,資料經過初步的清洗、簡單加工進入到貼源層,面對這些資料,如何在貼源層之上的基礎層構建主題模型是需要思考的一個課題。清晰的資料結構可以在使用表的時候能更方便地定位和理解,規範資料分層,開發一些通用的中間層資料,比如彙總層資料,滿足不同業務取數要求,能夠減少極大的重複計算;通過針對原始資料的一些預處理(缺失值、噪聲等處理)遮蔽原始資料的異常。 針對這塊,可以說我還是個小白,故自己查閱了一些網上資料並做了總結,記錄在這裡。

  • 通用金融行業主題域模型設計原則:

1、是對商業模型的抽象; 2、以商業模式中關注的物件為劃分依據; 3、內容完整且相對穩定; 4、每個主題域下一般都有一個與之同名的主實體,圍繞該主實體展開各種關係實體及父子實體。

  • NCR金融資料模型 NCR FS-LDM資料模型可以說是金融行業事實上的工業標準。 在這裡插入圖片描述
  • 支付寶

支付寶基於IBM 的FSDM的九大資料概念進行客戶化,如下圖所示:在這裡插入圖片描述

  • 結語
  • 結語 資料倉庫的分層可以算是資料倉庫架構的子話題。從目前來看,還沒有非常統一的分層方法,其中,Inmon和Kimball是最具代表性的兩種分層方法。 在Inmon提出的CIF(Corporate Information Factory,企業資訊工廠)中,他將ODS(Operational Data Store,操作型儲存)、EDW(Enterprise Data Warehouse,企業資料倉庫)、DM(DataMart,資料集市)區別開來,共分三層。相對於此,Kimball的匯流排架構強調多個數據集市合成了資料倉庫,只是他們基於統一的維度而已。因此,匯流排架構的分層中,從資料來源介面就直接到了DM了。 根據這兩種思路,又可以衍生一些不同的方法。例如IBM提出的CDW的概念,叫做企業資料倉庫層,這一層介於EDW和DM之間,起過渡作用(因為EDW和DM兩層的建模理念是不同的)。 像IBM、NCR這樣的廠商,他們大多走的Inmon路線。經過多年的經驗總結,都已有自己的企業概念模型,這也非常適合走分層明確、具有中心資料倉庫的路線。在Inmon的體系中,EDW是按照第三正規化建模的。之所以要強調這種思想,是因為第三正規化能夠讓資料模型變得簡潔、高度一致性。對資料倉庫的一個目的——統一口徑(Single Version of Truth),是非常有幫助的。 另一方面,Kimball的維度建模理論,即按照事實表、維表來構建資料倉庫、資料集市,也已經在很多實踐中被證明是非常有效的方法。可這種建模方法和第三正規化多少有點衝突。例如在維表中,不同粒度的資料放在一種表裡面,即存在大量的資料冗餘。但這種方法對資料倉庫四大特點之一的“面向主題”,又是有利的。 如此看來,大家提到的方法似乎都是從不同角度去看,沒有絕對的對錯,只是在為維護自己的觀點而爭論。具體採用何種分層,還得看專案投資大小、資料量多少以及業務邏輯複雜程度。